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Voorwoord 


Voor veel informaticastudenten is de theorie van formele talen een struikel- 
blok omdat de notatie moeilijk te begrijpen is. Toch is het onderwerp niet te 
vermijden omdat de theorie van de compilerbouw op de formele taaltheorie is 
gebaseerd. Het boek is bedoeld voor eerste- en tweedejaars informaticastuden- 
ten en bevat voldoende ondergrond voor een cursus compilerbouw. In verband 
met dit laatste wordt vooral ingegaan op de theorie van de reguliere en con- 
textvrije grammatica's. | 

De meeste boeken op dit gebied richten zich op universitair onderwijs in 
de tweede fase. De stof wordt dan diepgaander behandeld maar blijkt voor 
veel studenten nogal afschrikwekkend. In dit boek heb ik geprobeerd de on- 
derwerpen zo eenvoudig mogelijk te presenteren, zonder daarbij een formele 
behandeling volledig te laten varen. In de eerste hoofdstukken behandel ik de 
bewijzen stap voor stap om duidelijk te maken hoe formele bewijzen worden 
geconstrueerd. Vrijwel steeds wordt van de inductieve bewijsmethode gebruik 
gemaakt en geleidelijk aan worden daarbij minder details vermeld. Tegen het 
einde van het boek worden in de meeste gevallen alleen schetsen van bewijzen 
gegeven en wordt de nadruk gelegd op praktische toepassing. In figuur 0.1 is 
aangegeven hoe de hoofdstukken onderling samenhangen. 

Aan het einde van het tweede jaar in een driejarige informatica-opleiding 
behoort het merendeel van de stof uit dit boek te zijn bestudeerd. Een eenjarige 
cursus zou slechts de hoofdstukken 1, 2, 3 en 5 behoeven te dekken, met nog 
enkel onderdelen uit de hoofdstukken 4 en 6. Een afzonderlijk blok formele 
taaltheorie kan dit boek in circa eenentwintig college-uren behandelen. 


Inleiding 
Figuur 0.1 


x VOORWOORD 


Tot het schrijven van dit boek werd ik vooral gemotiveerd door een groep 
studenten aan de universiteit van Californié in Santa Barbara, V.S. Tijdens 
mijn sabbatical-jaar onderwees ik daar formele taaltheorie aan jongerejaars 
studenten. Ik dank hen voor hun enthousiasme en voor de steun en aanmoedi- 
ging die ik kreeg van de faculteitsafdeling en van mijn eigen universiteit tijdens 
de voorbereiding van dit boek. Met name Dr G.P. McKeown (East Anglia) wil 
ik danken voor zijn commentaar en Theodora Potter (Santa Barbara) voor 
haar uitstekende typewerk. 


V.J. Rayward-Smith 


Inleiding 


Bij het bestuderen van een (al of niet formele) taal hebben we allemaal een 
bepaald voordeel. Iedereen is expert in minstens één taal: zijn of haar moeder- 
taal. Of dit nu Engels, Frans, Spaans of Nederlands is, we zijn er zeer vaardig in 
en we ontwikkelen deze vaardigheid gedurende ons hele leven verder. Behalve 
één of meer natuurlijke talen kennen velen van ons tegenwoordig ook program- 
meertalen zoals Algol, Pascal, FORTRAN of BASIC. In deze talen worden pro- 
gramma’s geschreven en zij moeten dus met computers kunnen communiceren. 
U zult wel, net als ik, gemerkt hebben dat computers niet erg bedreven zijn in 
het begrijpen van uw goedbedoelde programma’s! In natuurlijke talen kunnen 
we heel goed met elkaar communiceren in slecht gestructureerde of onvolledige 
zinnen, maar computers hebben niet aan een half woord genoeg. Programma’s 
moeten zich houden aan zeer strenge regels en de kleinste afwijking van die 
regels wordt als incorrect afgewezen. 

In het ideale geval is een zin in een taal zowel semantisch (qua betekenis) als 
syntactisch (qua grammaticale structuur) correct. In het Nederlands of Engels 
zijn zinnen vaak syntactisch onjuist terwijl zij toch de bedoelde semantiek 
feilloos overdragen. In programmeertalen is syntactische correctheid essentieel, 
wil überhaupt een betekenis worden overgedragen. 

Als we de semantiek van een zin bestuderen dan bestuderen we de betekenis 
van die zin. De volgende zinnen hebben allen dezelfde semantische interpretatie 
en dus dezelfde betekenis. 


De man slaat de hond. 
De hond wordt door de man geslagen. 
L'homme frappe le chien. 


Het bestuderen van de syntaxis of de grammatica is het bestuderen van de 
zinsstructuur. De zin 


De man slaat de hond. 


kan worden ontleed in zijn samenstellende grammaticale delen. 


De man slaat de hond 
mite ed heen cead Note eye 
<naamwoordelijk <werkwoordelijk <naamwoordelijk 
deel> deel> deel> 


Elke zin met deze structuur is syntactisch correct Nederlands. Een verzameling 
van deze eenvoudige zinnetjes kunnen we met behulp van de volgende regels 
beschrijven. 
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<eenvoudige zin> 


<naamwoordelijk deel> <werkwoordelijk deel> <naamwoordelijk deel> 


ee a BR 


<lidwoord> <zelfst. naamw.> <lidwoord> <zelfst. naamw.> 


de man slaat de hond 


Figuur 0.2 


<eenvoudige zin> ::= <naamwoordelijk deel><werkwoordelijk deel> 
<naamwoordelijk deel> 


<naamwoordelijk deel> ::= <lidwoord><zelfstandig naamwoord> 


<zelfstandig naamwoord> ::= auto 
<zelfstandig naamwoord> ::= man 
<zelfstandig naamwoord> ::= hond 


<lidwoord> ::= de 

<lidwoord> ::= een 
<werkwoordelijk deel> ::= slaat 
<werkwoordelijk deel> ::= eet 


De regels zijn geformuleerd in BNF (Backus-Naur Form). Dit is een notatie 
die vaak wordt gebruikt voor het beschrijven van de syntaxis van program- 
meertalen. In hoofdstuk 2 gaan we hier verder op in. 

In het voorbeeld wordt <eenvoudige zin> gedefinieerd als een <naamwoor- 
delijk deel> gevolgd door een <werkwoordelijk deel> en opnieuw door een 
<naamwoordelijk deel>. Een <naamwoordelijk deel> bestaat uit een <lid- 
woord> gevolgd door een <zelfstandig naamwoord>. Kiezen we ‘de’ als lid- 
woord, ‘man’ als zelfstanding naamwoord, ‘slaat’ als werkwoordelijk deel, ‘de’ 
als tweede lidwoord en ‘hond’ als tweede zelfstandig naamwoord dan hebben we 
aangetoond dat ‘de man slaat de hond’ een syntactisch correcte <eenvoudige 
zin> is. Met behulp van een afleidingsboom, zoals is getekend in figuur 0.2, 
kan dit overzichtelijker worden gemaakt. 


Totaal kan <eenvoudige zin> leiden tot 2 x 3 x 2 x 2 x 3 = 72 verschil- 
lende zinnen. Zij zijn allemaal syntactisch correct, maar hun betekenis kan 
raadselachtig zijn. Wat betekent bijvoorbeeld ‘de auto eet de man’? 

Lees nu eens de volgende zin (geen <eenvoudige zin>): 


Wij vliegen gieren naar Artis. 
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Een mogelijk ontleding is 


Wij vliegen ieren naar Artis 
<voornaam- <werk- <zelfstandig <voor- <zelfstandig 
woord > woord> naamwoord> zetsel> naamwoord> 


De betekenis is een mededeling van enige piloten dat zij roofvogels naar een 
dierentuin te Amsterdam vliegen. Een andere ontleding is 


Wij vliegen ieren naar Artis 
<voornaam- <zelfstandig <werkwoord> <voor- <zelfstandig 


woord > naamwoord > zetsel> naamwoord > 


een mededeling van een groep insecten met grote snelheid op weg naar dezelfde 
dierentuin. 

Een andere ontleding leidt hier tot een geheel andere semantische interpre- 
tatie. Dit is wel een erg gekunsteld voorbeeld en in ons dagelijks taalgebruik 
komt dit soort misverstanden niet vaak voor, maar voor het werken met com- 
puters is dit fenomeen wel degelijk van belang. Een cruciale stap tijdens het 
compileren van een programma is het ontleden ervan om het semantisch te kun- 
nen interpreteren, (de Engelse term hiervoor luidt ‘parsing’). Syntaxisanalyse 
is daarom een belangrijk onderwerp binnen de informatica. Elke informaticus 
moet inzicht hebben in de structuur van grammatica’s; een onderwerp dat 
trouwens ook voor de zuiver wiskundige interessant is. 

Dit boek is weliswaar bedoeld voor de beginnende informaticus, maar de 
theorie van formele talen wordt vaak gezien als een onderdeel van de wiskunde 
en veel resultaten zijn zuiver mathematisch. Voor een diepgaandere behande- 
ling beveel ik het boek van J.E. Hopcroft en J.D. Ullman aan: Introduction 
to Automata theory, Languages and Computation, Addison-Wesley, Reading, 
Mass. 


Hoofdstuk 1 


Basisbegrippen uit de Wiskunde 


De wiskunde heeft niet alleen de waarheid in pacht, maar bezit 
ook grote schoonheid—zij is koel en streng als een beeldhouwwerk. 


—LORD BERTRAND RUSSEL 
The Study of Mathematics 


In dit hoofdstuk wordt een overzicht gegeven van de wiskunde nodig om de 
rest van dit boek te kunnen begrijpen. Als deze stof nieuw voor u is, bestudeer 
hem dan nauwkeurig en probeer alle concepten volledig te begrijpen. Het boek 
Mathematics for Computing door G.P. McKeown en V.J. Rayward-Smith kan 
hierbij verdere ondersteuning geven. Als de stof niet nieuw voor u is dan is 
vluchtig doorlezen en eigen maken van de notatie voldoende. 


1.1 Verzamelingen 


Een verzameling is een collectie objecten zonder herhalingen. Elk object in een 
verzameling heet een element van die verzameling. Als het aantal elementen 
klein is dan kan een verzameling worden gespecificeerd door haar elementen 
op te sommen. Als D bijvoorbeeld de verzameling van dagen van de week is, 
dan is 


D ={Maandag, Dinsdag, Woensdag, Donderdag, Vrijdag, 
Zaterdag, Zondag}. 


We scheiden de elementen door komma’s en omgeven ze door accolades. Meest- 
al ligt tussen de elementen geen ordening vast, dus ook is 


D ={Maandag, Woensdag, Vrijdag, Donderdag, Zondag, 
Dinsdag, Zaterdag}. 


Als een element x in een verzameling A voorkomt dan schrijven we z € A 
(lees: x is element van A) en als x niet in A voorkomt dan schrijven we x ¢ A 
(lees: x is geen element van A). | 
Dus: 


Maandag € D 


2 1 - BASISBEGRIPPEN UIT DE WISKUNDE 


maar 
Wasdag & D 


Vaak heeft een verzameling zeer veel, misschien zelfs oneindig veel elemen- 
ten. Opsommen wordt dan moeilijk of onmogelijk en we karakteriseren de ver- 
zameling door een definiërende eigenschap. Een element z zit in de verzame- 
ling als x die definiërende eigenschap bezit. Voor de verzameling D is zo’n 
eigenschap bijvoorbeeld: 


‘x is een dag van de week’. 
We definiéren dan | 
D = {z | x is een dag van de week}. 


Dat wil zeggen D bestaat uit alle elementen x die deze definiérende eigenschap 
hebben. Een ander voorbeeld: 


P = {z |x is een priemgetal} | 


P is een oneindige verzameling van gehele getallen. 


Als we verzamelingen op deze wijze definiëren dan moeten we ook het 
universum aangeven waaruit de elementen stammen. Als bijvoorbeeld 


As tele >S 


dan moeten we ook weten welke waarden de elementen z mogen aannemen. Als 
het alleen om gehele getallen gaat dan is sprake van een andere verzameling 
dan wanneer z reële waarden mag aannemen. In het eerste geval geldt 2.1 EX 
in het tweede geval juist 2.1 € X. Als universum, U, kan de verzameling der 
gehele getallen worden gekozen, maar ook die der reële getallen of bijvoorbeeld 
die der positieve gehele getallen, enzovoort. 


Een bijzonder belangrijke verzameling is de lege verzameling. Deze bevat 
geen elementen en wordt door ®, of door {} weergegeven. 


De verzameling A is een deelverzameling van de verzameling B, notatie 
A C B, als elk element van A ook in B zit. Als A geen deelverzameling van B 
is dan schrijven we A ¢ B. Dus 


1,2,4 C 1,2,3,4,5 

maar 
2,4,6 Z 1,2,3,4,5. 

Per definitie geld voor alle verzamelingen A 
ACU 

en 


DCA. 
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Twee verzamelingen A en B zijn gelijk, notatie A = B, als A C B en 
BC A. Dus | 


1,2,3,4 = 2,1,4,3 
maar | 
1,2,3,4 £ 2,1,3,5. 


Duidelijk is dat A = B desd! als A en B precies dezelfde elementen bevatten. 

Elementaire operaties op verzamelingen zijn de unaire operatie complement 
(!) en de binaire operaties vereniging (U), doorsnede (N) en verschil (\). (Een 
unaire operatie werkt op één operand, een binaire heeft er twee nodig.) Deze 
operaties worden als volgt gedefinieerd. Als A en B verzamelingen zijn dan is 


A’ = {x |x € A} alle elementen uit het universum maar niet in A 
AUB = {z|z € A of z € B} alle elementen in A of in B 
ANB = {z|zx € A en z € B} alle elementen in A en in B 
AB = {x| z € A,x € B} alle elementen in A, maar niet in B. 


_ Als bijvoorbeeld U = {0,1,2,3,4,5,6,7,8,9}, A = {0,1,3,5} en B = 
{2,3,5} dan is 
A’ = {2,4,6,7,8,9}, 
AUB = {0,1,2, 3,5}, 


ANB = {3,5}, 
A\B = {0,1}, 
B\A = {2}. 


Doorsnede en vereniging zijn beide associatieve operaties, dat wil zeggen voor 
alle verzamelingen A, B en C geldt 


(AU B)UC = AU(BUC) 
(ANB)NC=AN(BNC). 


De verschiloperatie is niet associatief. Doorsnede en vereniging zijn ook com- 
mutatief. Dat wil zeggen 


AUB=BUA 
AN B= BNA voor alle verzamelingen A en B. 


De verschiloperator is niet commutatief. 


Stelling 1.1 bevat een overzicht van een aantal eigenschappen van verzame- 
lingen. | | 


1 Afkorting van ‘dan en slechts dan’ 
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Stelling 1.1. Eigenschappen van verzamelingen 


Voor alle verzamelingen A, Ben C in een universum U gelden: 


1. De associatieve wetten (AUB)UC = AU(BUC) . 
(AN B)NC = An(BNC); 
2. De commutatieve wetten AUB=BUA 
ANB=BNA; 
3. De wetten van complementariteit AUA =U 
ANA'=0; 
4. De wetten van gelijkmachtigheid _ AUA=A 
ANA = A; 
5. De identiteitswetten AU@=A 
ANG = A; 
6. Wetten voor universum en AUU=U 
lege verzameling AND =Ø; 
7. De involutiewet (A'Y = 
8. De wetten van de Morgan (AUB) = ANB’ 
(ANB) = A uB'; 
9. De distributiviteitswetten AU(BNC) =(AUB)N(AUC) 
AN(BUC) =(ANB)U(ANC); 


Omdat vereniging associatief is kunnen we ook schrijven AU BUC; de volgorde 
waarin de operaties worden toegepast heeft geen invloed op het resultaat. Dit 


kan worden uitgebreid naar A; U A2 U... U An of 


Evenzo schrijven we 


Ma 
$51 


voor A¡NA2NM...NA,n. Twee verzamelingen A en B heten disjunct als zij geen 
element gemeen hebben. Dit betekent dat An B = Ø. 
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(1, 1) — (1,2) (1, => see TE) 


(2, 1) (2, 2) (2, mt (2, 4) 
EN ER an ag 


> 


(4, 1) (4, 2) 
(571) ve 
Tabel 1.1 


1.2 Kardinaliteit en aftelbaarheid 


Als A uit een eindig aantal elementen bestaat dan heet A een eindige verza- 
meling. Is het aantal niet eindig dan heet A een oneindige verzameling. 

Het kardinaalgetal #(A) van een eindige verzameling A is het aantal ele- 
menten in A. Als bijvoorbeeld D de verzameling van dagen van de week voor- 
stelt dan is #(D) = 7. Een verzameling met kardinaalgetal 1 heet een singleton. 

Bij oneindige verzamelingen zou het prettig zijn als we een systematische 
lijst van de elementen konden maken, dus als we een eerste element, een tweede, 
een derde enz. konden aanwijzen. Als N bijvoorbeeld de verzameling der na- 
tuurlijke getallen voorstelt, dan ligt als opsomming de lijst 1,2,3,4,... voor 
de hand. We kunnen dan zonder dat dit tot misverstanden kan leiden spreken 
over het if? natuurlijke getal. Het spreekt niet vanzelf (en het is zelfs niet waar) 
dat van elke oneindige verzameling zo’n lijst kan worden gemaakt. 

Kunnen we bijvoorbeeld de elementen van Z, de verzameling van alle gehele 
getallen net zo opsommen als die van N? Het antwoord is: Ja, dat kan, bijvoor- 
beeld door afwisselend een positieve en een negatieve waarde op te schrijven: 


at ot ae ou ee RE AN 


Elke z € Z komt ergens in deze lijst voor. 

Een paar natuurlijke getallen schrijven we als (n1, n2) met nı,na € N. De 
verzameling van deze paren is het produkt N x N. Deze verzameling i is in eenn 
1.1 in tabelvorm weergegeven. 

Steeds als we een manier kunnen vinden om de elementen van een verza- — 
meling systematisch op te sommen, kunnen we spreken van het i@ element 
uit die verzameling. De verzameling heet dan aftelbaar. Elke eindige verzame- 
ling is aftelbaar, maar dit geldt niet voor alle oneindige verzamelingen. Het 
halfopen interval [0,1), de verzameling van alle reële getallen > 0 en < 1 is 
bijvoorbeeld niet aftelbaar. Dit kan worden bewezen met behulp van de dia- 
gonalistatiemethode van Cantor. We veronderstellen dat er een systematische 
opsomming bestaat van alle reële getallen uit het interval en we bewijzen dat 
deze veronderstelling tot een logische tegenspraak leidt. 


Als we de getallen in de gebruikelijke decimale notatie weergeven dan bestaat 
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de volgende lijst als onze veronderstelling juist is. 


l-ste reële getal 0.417412413.… 
2-de reële getal 0.4a21422423.…. 
3-de reële getal 0.431a32433.…. 


De elementen a;; stellen één van de cijfers 0,1,2,...,9 voor. Elk reëel getal uit 
€ [0,1) zou in deze lijst moeten voorkomen. Neem nu het getal 


0.411 422433 .... 


dat bestaat uit de decimalen op de hoofddiagonaal en construeer hieruit 0.b,, 
b22b33 ..., met 


TAES De +1 alsa; < 9, 
ri ea als a;; = 9. 


Het getal 0.b11b22b33... zit in [0.1) maar komt niet voor in de oorspronkelijke 
lijst omdat het van het i? getal in ieder geval in de i4¢ decimaal verschilt. De 
veronderstelling leidt dus tot een tegenspraak; (0,1) is niet aftelbaar. 


1.3 Produkten van verzamelingen 


A; en A) zijn verzamelingen. Het produkt A x A2 bestaat uit de paren (a, a2) 
met a; € A; en az € A». Dus 


A, X Ag = {(a1,a2) |a € Aj,a2 € Ao). 


Een eenvoudig voorbeeld. Als A; = {0,1} en A2 = {x,y,z} dan is Aı x Az = 
{(0, z), (0, y), (0, z), (1, 2), (1, y), (1,2)} Het produkt N x N kwam al bij de 
behandeling van aftelbaarheid te pas. _ 

We breiden de definitie uit tot Aj x Aa x As, de achat. van alle 
tripels (a,, az, a3) met a, € A1, a2 € A2,a3 € Ag en tot Ay x A2 X ... X A, de 
verzameling van alle n-tupels (a;,a2,...,a@,) met a; € A; voor i = i, ions Mt 

Voor eindige verzamelingen kan men aantonen dat geldt #(Aı x Ma = 
#(Aı) x #(A2). Met behulp van een tabel kan men bewijzen dat A; x As 
aftelbaar is desd als A, en As aftelbaar zijn. 

Met behulp van inductie bewijst men dat 


H(Aı x Aa X... X An) = #lAr) x (A3) xx (An) 


voor alle n > 1 als de verzamelingen A;,A2,...,An eindig zijn. Verder dat 
A; X A2 X ... X An aftelbaar is desd als Aj, A2,... An aftelbaar zijn. 

Een relatie R is een willekeurige deelverzameling van Al x A2. Al heet dan 
het domein van Ren A2 heet het bereik of de range van R. We zullen vaak met 
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relaties te maken krijgen waarvan domein en range beide dezelfde verzameling 
A zijn. We noemen in dat geval RC A x A een relatie op A. Als bijvoorbeeld 
A =0,1,2,3 dan komt de verzameling geordende paren 


L = {(0,1), (0,2), (0, 3), (1,2), (1,3), (2, 3)} 


overeen met de relatie ‘kleiner dan’ en 


E = £(0, 0), (1, 1), (2, 2), (3, 3)) 


is de relatie “is gelijk aan’. De gebruikelijke notatie voor (a,b) € R is aRb en 
voor (a,b) ¢ Ris afb. 
Een relatie R op A heet reflexief als 


aRa voor alle a € A. 


De bovengenoemde relatie L is dus niet reflexief op A omdat immers (0,0) ¢ L. 
De relatie E is wel reflexief. 
Een relatie heet symmetrisch als 


aRb impliceert dat bRa. 
L is niet symmetrisch omdat (0,1) € L, maar (1,0) ¢ L. E is wel symmetrisch. | 


R heet transitief op A als 
aRb en bRc impliceert dat aRc. 


Len E zijn beide transitief. 

Als een relatie R op A reflexief, symmetrisch en transitief is dan heet- de 
relatie een equivalentierelatie. De relatie E is een equivalentierelatie op A = 
0,1,2,3, maar dit geldt bijvoorbeeld ook voor de volgende relatie 


V= {(0,0), (0,2), (1, 1), (1, 3), (2, 2), (2,0), (3, 1), (3,3)}. 


Als R een equivalentierelatie op A is en a € A dan kan men een verzameling 
elementen @ aangeven die via R met a een relatie hebben. Dus 


a= {b € AlaRb}. 


Een dergelijke verzameling noemt men een equivalentieklasse. 

- Bij E bestaan er vier verschillende equivalentieklassen, namelijk: 
1= {1}, 2 = {2} en 3 = {3}. Bij V horen twee equivalentieklassen: 
{0,2} en 1 = 3 = {1,3} We kunnen de volgende stelling bewijzen. 


Stelling 1.2 


De equivalentieklassen bij een equivalentierelatie R op een verzameling A ver- 
delen A in een aantal disjuncte, niet-lege verzamelingen. 

Bewijs: Elke equivalentieklasse a is niet-leeg omdat immers a € a, (aRa want R 
is reflexief). Verder moeten we aantonen dat ofwel geldt a = b, ofwel anb = PD. 
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Als anb # Ø dan bestaat er een ce and. Dus dan geldt c € a en c € ben 
dus aRc en bRc. Omdat R ook symmetrisch is volgt uit bRc dat cRb en omdat 
R transitief is volgt uit aRc en cRb dat aRb en dus is b € a. Voor alle z € b 
geldt bRz en omdat aRb en R transitief is, geldt ook aRz en is dus z € a. Dus 
geldt b C T. Op overeenkomstige wijze kan worden aangetoond dat a C b en 
dus geldt a = b, q.e.d. 

We geven nog een voorbeeld van equivalentieklassen. Zij R de relatie op 
de positieve gehele getallen N, waarvoor geldt aRb desd als |a — b| deelbaar 
is door 5. Er bestaan dan vijf verschillende equivalentieklassen met ieder een 
oneindig aantal elementen. 


— 
> 


ol CO] NI] Gl 
lel tol 
ITA 


) 
) 
.. 3 
) 


pa 
A 


ou al Col Del el 


pd 
oO 
II 
ja 
or 
II 


O 
5 


oe 9 


Als R een willekeurige relatie op A is dan heet de kleinste reflexieve (of sym- 
metrische of transitieve) relatie op A met R als deelverzameling de reflexieve 
(symmetrische of transitieve) afsluiting van R. Als bijvoorbeeld 


R = {(0, HAAR (1,2)} 


een relatie op 0, 1,2 is dan is de reflexieve afsluiting 


£(0,0), (0, 1), (1, 1), (1,2), (2,2)}, 


de symmetrische afsluiting is 


{(0,1),(1,)), (1, 1), (1,2), (2, 1)} 


en de transitieve afsluiting is 


£(0, 1), (0,2), (1,1), (1, 2)}. 


Om nog een voorbeeld te geven: de relatie <, gedefinieerd op alle gehele ge- 
tallen heeft als reflexieve afsluiting < en als symmetrische afsluiting #. Omdat 
de relatie transitief is, is de transitieve afsluiting gelijk aan de relatie zelf. 

Een functie f : A — B kan worden beschouwd als de verzameling van alle 
paren (a,b) met a € A, b € Ben b = f(a). Een functie f : A — B kan 
dus worden gedefinieerd als een relatie in A x B met de eigenschap dat als 
(a,b) € f en (a,c) € f dat dan b = c. Dit betekent dat de waarde f(a) uniek 
moet zijn. Als f niet op alle elementen van A is gedefinieerd dan noemen we 
f een partiële functie A — B. Is f wel voor alle elementen van A gedefinieerd 
dan heet f een totale functie A — B. 

Een totale functie f : A — B heet surjectief als er voor elke b € B een a € A 
bestaat zo dat f(a) = b. De functie f heet injectief als unieke elementen uit A 
op unieke elementen uit B worden afgebeeld, dus als uit f(al) = f(a2) volgt 
dat al = a2. In figuur 1.1 hebben we enkele functies schematisch weergegeven. 
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Een partiële functie A — B Geen functie 
A 
Een totale functie A — B Een totale functie A — B 
surjectief injectief 
Figuur1.1 


Elke (a,b) € f wordt aangegeven door een lijnverbinding tussen a € A en 
be B 

Een totale functie f : A — B die zowel surjectief als injectief is, noemen 
we een bijectie of een-eenduidige afbeelding. 

Aftelbaarheid kunnen we nu formeel als volgt definiëren: een verzameling 
A is aftelbaar als A of eindig is, of als er een bijectie f : A — N bestaat. Deze 
een-eenduidige afbeelding op de verzameling der natuurlijke getallen maakt 
een opsomming mogelijk, waarbij het ¿% element van A wordt afgebeeld op 
het natuurlijke getal 7. 


1.4 Grafen en bomen 


Een gerichte graaf of digraaf, G = (V, E) bestaat uit een eindige verzameling 
knopen (vertices), V en een relatie E op V. Een digraaf kan als volgt in een 
plaatje worden weergegeven: voor elke v € V tekenen we een knoop v en als 
(v,w) € E dan verbinden we de knoop v met de knoop w door middel van een 


lijn. We krijgen dan 


In figuur 1.2 is de digraaf Gi = (Vi, E1) getekend met V, = {v,w,x} en 
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Figuur 1.2 


E, = {(v, w), (v, x), (w, 2), (x, v), (2, 2)). 

Als voor een digraaf G = (V, E), (v,w) € E dan zeggen we dat v en w ver- 
bonden zijn. De verbinding wordt wel een ‘kant’, (Engels: edge) genoemd. Als 
er een rij knopen v = %,,01,...,%n = w met n > 0 bestaat zodanig dat 
(vi, vi+1) € E voor i=0,1,...,n-1 dan zegt men dat er een gericht pad ter lengte 
n bestaat in G van v naar w. Als er een pad van v naar w bestaat dan geldt 
ofwel v = w, ofwel we kunnen langs de verbindingen tussen de knopen vanuit 
v, w bereiken. 


Als G = (V, E) een digraaf is dan heet elke digraaf (V”, E”) met V’ C V en 
E' C E een (gerichte) deelgraaf van G. In figuur 1.3 zijn vier deelgrafen van de 
digraaf G uit figuur 1.2 getekend. Twee deelgrafen heten disjunct als zij geen 
knooppunten gemeen hebben. In figuur 1.3 zijn (a) en (c) disjunct, evenals (b) 
en (c). 

Een belangrijk soort digraaf die we in de inleiding al tegenkwamen, is de 
boom. Een boom kan als volgt recursief worden gedefinieerd: een boom T = 
(V, E) is een digraaf, waarin een bepaalde knoop r als wortel kan worden 
aangewezen. Als V uit slechts één knoop bestaat dan is T = ({r}, Ø), anders 
bestaat T uit de wortel r en disjuncte deelgrafen T;,7>,...,7,(k > 1) die weer 
bomen zijn te zamen met verbindingen vanuit r naar elke van deze bomen. In 
figuur 1.4 is een voorbeeld van een boom getekend. Ga na dat dit volgens onze 
definitie inderdaad een boom is. 

We tekenen bomen gewoonlijk met de wortel bovenaan. Soms tekent men 
pijlen in de richting van de volgende knopen, maar deze zijn eigenlijk overbodig 


©, 


©, 


(a) (b) (o (a) 
Figuur 1.3 | 
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Figuur 1.4 


en we zullen ze daarom in het vervolg weglaten. 
Een knoop zonder uitgaande kanten heet een externe knoop, een blaadje of 
een eindpunt. In figuur 1.4 zijn de knopen d,e,i,g en h de blaadjes. 


Een knoop die geen blaadje is heet een interne knoop. Veel van de termi- 
nologie in verband met bomen stamt uit de genealogie. Als er bijvoorbeeld een 
directe verbinding bestaat vanuit een knoop v naar een knoop w dan heet v 
de ouder van w. Alle knopen behalve de wortel hebben ouders. Als v de ouder 
van w is dan heet w het kind van v. Alle interne knopen hebben kinderen. Als 
er een gericht pad bestaat vanuit v naar w, langs een of meer kanten, dan heet 
v de voorouder van w en w de nakomeling van v. | 


1.5 Strings 


Met een string bedoelen we een eindige rij symbolen aja2 ...a,. De elementen 
a; zijn elementen van een of ander eindig alfabet I; in de string zijn herhalingen 
van hetzelfde teken toegestaan. Zo is 001110 een voorbeeld van een string met 
symbolen uit het alfabet E = {0, 1}. 

Van een string met m symbolen zeggen we dat hij lengte m heeft; 001110 
is dus een string met lengte 6. Een string zonder symbolen heeft lengte 0 en 
heet de lege string £. De lengte van een string x wordt aangegeven door |z|. 
Dus [001110] = 6 en |e] = 0. 

Werken met strings is qua wiskunde vrij eenvoudig. Eerst moeten we een 
alfabet specificeren. Dit is een niet-lege eindige verzameling symbolen waarmee 
we strings kunnen opbouwen. Als ook het lege symbool of de spatie in onze 
strings moet kunnen voorkomen dan moet dit element van ons alfabet zijn. 
Ter wille van de duidelijkheid wordt de spatie door het teken A weergegeven. 
In plaats van 00 11 01 schrijven we dus 00 A 11 A 01. De spatie A moet niet 
worden verward met de lege string; het is een string met lengte 1. 

De verzameling van alle mogelijke eindige strings over een alfabet 2 zullen 
we noteren als &*. Als © = {0,1} dan is 


E* = {e,0,1,00,01, 10, 11,000,001, 010,...}. 
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2" heeft altijd een aftelbaar oneindig aantal elementen, (zie oefening 1.3). We 
gebruiken de normale notatie uit de verzamelingenleer z € E* om aan te geven — 
dat een string x element van 2* is en {x ¢ D*} als dit niet het geval is. Op 
grond van de definitie van de lege string geldt e € E* voor alle verzamelingen 
D. | 

Als x € ** een string ter lengte m is dan schrijven we £z = ajas... am 
met a; € E voor 1 < i < m. Als z € Y* een string is met lengte m en 
y € 2* is een string met lengte n dan heet de string die wordt gevormd 
door de string y aan de string z toe te voegen de concatenatie van x en y, 
notatie zy. De lengte van zy is m+n. Als x = a1a2...am en y = bib2...bn 
dan is dus zy = aja... ambiba...bn. De operatie concatenatie is associatief: 
(zy)z = z(yz), maar niet commutatief omdat meestal zy + yz. De lege string 
is een eenheidselement ten opzichte van concatenatie want er = ze = x voor 
alle x € I*. | 

Als een string z € D* van de vorm zy is met x,y € E* dan heet x een prefix 
van z en y heet een postfix van z. Als bijvoorbeeld z = 00110 dan is volgens 
de definitie € een prefix van z, evenals 0, 00, 001,0011 en z zelf. De postfixen 
van z zijn 0, 10, 110,0110 en opnieuw z zelf. | 

Als z,z € &* zodanig dat z = wzy voor een w,y € E* dan heet z een 
substring van z. De substrings van z = 00110 zijn e, 0, 1, 00, 01, 10, 11, 001, 
011, 110, 0011, 0110 en z zelf. 

Een (formele) taal L over een alfabet © wordt eenvoudig gedefinieerd als 
elke deelverzameling van ©*. Als Lı en La twee van die talen zijn dan is hun 
(verzameling)concatenatie de taal Lı L2 = {zy|z € Li, y € L2}. Als bijvoor- 
beeld Lı = {01,0} en L2 = {e,0,10} dan is Lı L2 = {01,0,010,00,0110}. Net 
als stringconcatenatie is verzamelingconcatenatie associatief maar niet commu- 
tatief. Voor iedere taal L geldt dat L{e} = {e}L = L en de singleton verzame- 
ling {€} is dus een eenheidselement voor verzamelingconcatenatie. Merk op dat 
de singleton met de lege string niet hetzelfde is als de lege verzameling ®. Deze 
laatste is een nulelement voor verzamelingconcatenatie, want LD = ØL = Ø 
voor iedere taal L. 

De concatenatie van een taal L met zichzelf is LL en wordt geschreven als 
L?. De algemene definitie luidt L? = {e}, L! = L, Li = LLi-! = L'-1L voor 
t > 2. De Kleene-afsluiting van L, notatie L* is gedefinieerd als 


oo 
Ur. 
i=0 
L* is per definitie 
oo 
Jr. 
=] 


en dus geldt L* = Lt U {e}. E? is de notatie voor alle strings in E* met lengte 
twee, ©? voor die met lengte drie, etc. De verzameling van alle strings met 
lengte groter gelijk een wordt geschreven als 5+ en dus is 
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oo 
yt = U y 
és} 


en 


D* = Dt u {e} = Ur. 


i=0 


1.6 Oefeningen 


1. Als A = {ab,c} en B = {c,ca} twee talen zijn in {a,d,c}* bepaal dan 
(a) AUB, 

(b) AB, . 
(c) A’\B’, 
(d) AB, 
(e) BA, 
(f) A? U B?. 

2. Bewijs dat de verzameling van de rationale getallen aftelbaar oneindig is. 

3. Als E een eindig alfabet is dan is D* aftelbaar oneindig. Bewijs dit. 

4. De diepte van een knoop v in een boom T = (V,E) wordt als volgt 
gedefinieerd: als v de wortel is dan is de diepte van v in T gelijk aan 0; 
als v niet de wortel is dan is v € T; voor een of andere subboom 7; die 
via een enkele verbinding met de wortel van T is verbonden. De diepte 
van v in T is dan een meer dan de diepte van v in Jj. 


(a) Bepaal de dieptes van alle knopen in de boom in figuur 1.4. De diepte 
van de boom is de maximale diepte van een knooppunt in de boom. 


(b) Als T een boom met diepte k is en als elke knoop precies twee kin- 
deren heeft dan heeft T n knopen, waarbij 


2hk+1<n<2!-1 
Bewijs dit. 
5. Zij T een boom. Bewijs dat er een uniek pad bestaat vanuit de wortel 
naar elk knooppunt in de boom. (Hint: bewijs dit met inductie.) 
6. Als z € E* dan wordt de omkering van z, x” als volgt recursief gedefi- 


nieerd. Als z = € dan is z” = € anders z = ay met a € Yen y € X* en 
dan geldt x” = y”a. Formuleer een recursieve functie voor |x|, de lengte 


van een string z € E* en bewijs met inductie dat |x| = |x”| voor alle 
x € E*. (Hint: maak gebruik van het bewijs dat |zy| = |z| + ly] voor alle 
r,y € **.) 


7. Als R en Rz twee relaties op A zijn dan geldt: 
(a) als Rı reflexief is dan geldt dit ook voor Rı U Ra; 
(b) als Ry en Rz reflexief zijn dan geldt dat ook voor Ri N Ro. 
(c) Blijven deze beweringen geldig als we ‘reflexief’ vervangen door ‘sym- 
metrisch’? En als we ‘transitief’ substitueren? 
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8. 


10. 


11. 


12. 
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Zij R een relatie in A x B en zij S een relatie in B x C. De compositie 
van R met S, RoS is gedefinieerd als de relatie in A x C met 


RoS = {(a,c)| er bestaat een b € B zodanig dat: | 
(a,b) € Ren (b,c) € S} 


(a) Bewijs dat compositie een associatieve operatie is. 
(b) Als Ren S surjectieve totale functies zijn dan is RoS een surjectieve 
totale functie van A op C. 


. Als RC Ax Been relatie is dan is haar inverse R-! een relatie in Bx A 


gedefinieerd door 
R? = ((b,a)| (a,b) € R}. 
(a) Bewijs dat (R~')-! = R. 


(b) Welke voorwaarden moeten we aan R opleggen als R-! een totale 
functie is? 


Als A= B en R dus een relatie op A is, bewijs dan dat 


(c) R is reflexief desd als R-t reflexief is; 
(d) R is symmetrisch desd als R~! symmetrisch is; 


(e) R is transitief desd als R7! transitief is. 


De verzameling van alle deelverzamelingen van een verzameling A wordt 
aangegeven door 24 en heet de machtverzameling van A. 

(a) Als A = a,b, c schrijf dan de acht elementen van 24 uit. 

(b) Bewijs dat #(24) = 2” als #(A) = n. 

Een functie f : 24224 — 24 heet monotoon stijgend als uit A; C B, 
en A2 C Ba volgt dat f(A1,A2) C f(B1, B2). Bewijs dat vereniging en 
verzamelingconcatenatie beide monotoon stijgende functies zijn. | 
Zij G = (V, E) een digraaf en zij E* de reflexieve afsluiting van de tran- 
sitieve afsluiting van E. Bewijs dat er een gericht pad bestaat van v naar 
w in G, met v,w € V dan en slechts dan als (v, w) € E*. 


Hoofdstuk 2 


Grammatica's; een inleiding 


In het eindige openbaart zich het oneindige. 
—THEODORE ROETHKE 
The Far Field 


In de meeste verhandelingen over hogere programmeertalen wordt aandacht 
besteed aan een formele definitie van de syntaxis. Pascal wordt bijvoorbeeld 
- vaak beschreven met behulp van syntaxisdiagrammen. We gaan zo’n syntaxis- 
diagram eens nader bekijken. In figuur 2.1 is het begrip ‘factor’ gedefinieerd. 


tekenloze constante 
variabele 


expressie 


expressie CA expressie 7 


Figuur 2.1 


Door het diagram kunnen verschillende routes worden afgelegd, die allen 
één of meer knooppunten bevatten. Bijvoorbeeld 


tekenloze constante 


Dit is een route die maar één knooppunt bevat. De volgende iets ingewikkelder 
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route bevat vier knooppunten 


— a LO on 
faam 


Nog ingewikkelder is 


functie- : : 

LEE 0 ens] 0 [er] 0 
Omdat het diagram lussen bevat is er in feite een oneindig aantal routes mo- 
gelijk en elke route levert een toegelaten definitie van het begrip ‘factor’. Met 
syntaxisdiagrammen kunnen dit soort definities op een eenvoudige en bondige 
wijze worden gegeven. Als u probeert ‘factor’ alleen in woorden te definiëren 
zult u zien hoe moeizaam dat gaat. 

Elk knooppunt in het diagram dat is omgeven door een rechthoekje, wordt 
gedefinieerd in een ander diagram. Als ‘factor’ dus wordt gedefinieerd als 
kan vervolgens in het diagram voor ‘variabele’ de syntaxis van dit 
begrip worden opgezocht. De grootheden in de rechthoekjes heten nonterminale 
grootheden. Een omcirkeld knooppunt, zoals © is een terminale grootheid; het 
is een element van de door de grammatica gedefinieerde taal. 

De syntaxis van Pascal kan ook worden gedefinieerd met behulp van de 
BNF-notatie die we in de inleiding bespraken. In BNF wordt een nonterminale 
grootheid omgeven door de symbolen < en >. Het teken ::= betekent ‘is ge- 


definieerd als’ en | wordt gebruikt voor ‘of’. ‘Factor’ kan nu als volgt in BNF 
worden gedefinieerd 


<factor> ::= <tekenloze constante> 
| <variabele> | <functienaam> 
| <functienaam> (Sexpressiclijst>) 
- | (<expressie>) 
| = <factor> 


I[] 


| [<twee-expressielijst >] 


De nonterminalen <expressielijst> en <twee-expressielijst> worden gedefi- 
nieerd als 


<expressielijst> ::= <expressie> 
| <expressie>,<expressielijst> 


en 


<twee-expressielijst> ::= <twee-expressie> 
| <twee-expressie>,<twee-expressielijst> 


met 


<twee-expressie> ::= <expressie> 
| <expressie> -- <expressie> 
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_Bij het definieren van programmeertalen kan men net zo goed syntaxisdiagram- 
men als BNF-notatie gebruiken; zij zijn volledig uitwisselbaar. Jensen en Wirth 
geven in hun Pascal: User Manual and Report (Springer) de syntaxisdefinitie 
op beide manieren. Vanuit het begrip <programma> kunnen via de syntaxisre- 
gels alle toegelaten programma’s worden afgeleid. Toch zijn we er niet helemaal 
als we de syntaxis van de taal hebben beschreven. Aan het gebruik van Pascal 
bijvoorbeeld zijn verdere beperkingen opgelegd die niet in de syntaxisregels tot 
uitdrukking komen, zoals de regel dat elke variabele die we in een programma 
gebruiken in een declaratie moet worden genoemd. Een dergelijke regel is niet 
te vangen in BNF-notatie of in daarmee equivalente beschrijvingen. Eén van 
de belangrijke onderwerpen van de theorie van formele talen is dan ook het 
onderzoek naar de kracht en de beperkingen van BNF-achtige notaties. 


2.1 Frasestructuurgramatica's 


De formele grammaticadefinitie die we zullen gebruiken heeft overeenkomsten 
met de BNF-notatie. In ons formele model gebruiken we hoofdletters voor 
nonterminalen, kleine letters voor terminalen. Het teken ::= vervangen we door 
—. Een eenvoudige grammatica ziet er dan zo uit 


S — A|B 
A—aAla 
B —bB|b 


Uit S kunnen we A of B afleiden. Uit A kunnen we in één stap de string a 
afleiden, in twee stappen de string aa en in k stappen de string a*. Op dezelfde 
manier kunnen we uit B in k stappen de string b* (k > 1) afleiden. Als we een 
string @ uit een string œ kunnen afleiden door het toepassen van één van de 
produktieregels uit de grammatica dan schrijven we a > p. Als a; m,» > 
Q3,...,Q@n—1 > Qn (n > 1) dan korten we dit af tot aj > a2 > ::: > an of 
zelfs tot a, > an. Als we de hierboven vermelde grammatica gebruiken dan 
geldt 


S>Az>aA>aaA > aaa 


Dit is een toegelaten afleiding van a uit S. De afleiding kan ook door een 
boom worden voorgesteld, zoals in figuur 2.2. 

We gaan deze begrippen nu verder formaliseren. In onderstaande definitie 
worden de afleidingsregels (die overeenkomen met het formele begrip produk- 
tieregel) gegeneraliseerd in die zin dat zowel in het linkerlid als in het rech- 
terlid strings van terminalen of nonterminalen worden toegelaten. Tot nu toe 
gebruikten we steeds voorbeelden met precies één nonterminaal in het linkerlid 
en voor de bestudering van programmeertalen zijn dat ook de interessantste 
voorbeelden. 
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Figuur 2.2 


Een frasestructuurgrammatica (Engels: phrase structure grammar, afgekort als 
PSG) is een 4-tupel (N,T, P, S). Hierbij is 


(a) N een eindige verzameling van nonterminalen, weergegeven door hoofd- 
letters (mogelijk met subscripts); 

(b) T is een eindige verzameling van terminalen met NNT = Ø, weergegeven 
met kleine letters (mogelijk met subscripts en gekozen uit het begin van 
het alfabet); | 

(c) P is een eindige verzameling van produktieregels van de vorm a — GB, 
waarbij a, de string uit het linkerlid van de regel zodanig is dat a € 
(N UT)* terwijl voor B geldt BE(NUT)*; 

(d) SE N is een symbool dat is aangewezen als startsymbool voor de gram- 
matica. 


We geven een voorbeeld van een PSG. G, = ({S, A, B}, {a,b}, P, S). P bestaat 
uit de produktieregels 


SA S— B 
A-aA Aa 
B=bB B-I 


Ook hier gebruiken we het teken | voor ‘of’ om de produktieregels korter op te 
kunnen schrijven. Bovenstaand voorbeeld wordt dan 


S — AIB 
A—aAla 
B —bB|b 


Zoals u misschien al hebt opgemerkt hoeven we alleen maar de produktiere- 
gels en het startsymbool aan te geven om een grammatica te specificeren als 
we ons tenminste houden aan de afspraken ten aanzien van het gebruik van 
hoofdletters en kleine letters. Als we altijd S als startsymbool gebruiken dan 
hoeven we zelfs dat niet meer aan te geven. 

Bekijk nu eens de volgende PSG, G2 met produktieregels 
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S—aSBC|aBC 
CB— BC 
aB — ab 
bB — bb 
bC — be 
cC — cc 


Dit is een eerste voorbeeld van een grammatica met linkerleden die niet alleen 
uit een enkele nonterminaal bestaan. Men kan bewijzen dat uit S elke string 
van de vorm a”b”c”, n > 1 kan worden afgeleid. Een voorbeeld: 


S >aSBC 
>aaBCBC (als S—aBC) 
> aabC BC (als aB — ab) 
> aabbCC (als CB — BC) 
=> aabbcC (als bC — bc) 
> aabbcc (als cC — cc) 
Dit is een volgens de grammatica toegelaten afleiding van a?b?e?. 

Het begrip ‘afleiding’ moet u nu langzamerhand intuitief duidelijk zijn. 
We gaan nu onze formele definitie van het begrip grammatica gebruiken om 
precies te kunnen aangeven wat het betekent dat een string op grond van een 
grammatica afleidbaar is. Zij G = (N,T,P,S) een willekeurige PSG en zij 
Yıaya € (N UT)* een string van terminalen en nonterminalen met een lengte 
> 1. Als a — f een produktieregel in P is dan kan « in Yıaya vervangen 
worden door ß en dit levert y, Py2 op. We schrijven dan 


ne = yıßya, 


(lees: Yyıaya genereert 71872 of Yıßya wordt afgeleid uit y,a72). 
Als a1, as, „an € (NUT)* en a; > 09, 09 > A3, Oni > a,(n > 1), 


dan schrijven we 
Aa] È 2 > Zr: > Ani PA 
1 G 2 G 3 G n—1 G n 
of korter 
A 
a] +0 
1 G n 
. »» + . .,. .,. 
(lees: a; genereert a, in één of meer stappen), 3 is dus de transitieve afsluiting 


van de relatie > De reflexieve afsluiting wordt aangegeven door > en dus geldt 


* 
a 4 an desd aı = An of aı > an. 
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Als a € (N UT)* zodanig is dat S > a dan heet a een zinsvorm van G. Een 


zin van G is iedere willekeurige zinsvorm in T*, dat wil zeggen een terminale 
string die uit S kan worden afgeleid. L(G) de verzameling van alle zinnen van 
G, heet de taal gegenereerd door G. Dus 


L(G) = {x € T*|S > g}. 


In veel voorbeelden is uit de context duidelijk welke grammatica G we bedoelen. 
In dat geval laten we het subscript G vervallen in 2 >, 2 en schrijven >, 
3,3. | 
Ga na dat voor de eerder gebruikte voorbeelden G; en Go geldt dat 

L(G) = {a"|n > 1} U {b"|n > 1} 
en 

L(G2) = {a"b”c"|n > 1} 


Soms komt het voor dat twee verschillende grammatica’s G en G” dezelfde taal 
L(G) = L(G") genereren. In dat geval heten de grammatica’s equivalent. De 
grammatica G3 met de hierna volgende produktieregels is equivalent met G4 


S —aAlbBlalb 
A—aAla 
B — bBIb 


2.2 Centextvrije grammatica's 


De syntaxis van de meeste programmeertalen kan en met behulp van 
de BNF-notatie worden gedefinieerd. Dit komt overeen met een PSG met de 
beperking dat het linkerlid van elke produktieregel a — ß uit een enkele non- 
terminaal moet bestaan. In de formele taaltheorie heet een PSG met deze 
restrictie een contextvrije grammatica. Een contextvrije grammatica (CFG) is 
een PSG, G = (N,T, P, S) waarbinnen elke produktie in P de volgende vorm 
heeft 


AP waarbij AEN en BE(NUT)*. 


ledere door een CFG gegenereerde: taal heet een contextvrije taal (CFL). De 
term contextvrij wordt gebruikt omdat elke A in een zinsvorm kan worden uit- 
gebreid door een produktie van de vorm a — ß te gebruiken. Deze uitbreiding 
is toegelaten onafhankelijk van de strings die A in de zinsvorm omringen, dus 
onafhankelijk van de context van A. 

Gı en G3 zijn beide voorbeelden van CFG’s en dus is L = L(Gı) = L(G3) 
een CFL. We kunnen op dit moment nog niet vaststellen of ook La = L(G2) 
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een CFL is. In ieder geval is Gz geen contextvrije grammatica, maar misschien 
bestaat er toch een CFG die La genereert. De lezer zou zelfs kunnen proberen 
om zo’n CFG te construeren, (later zullen we echter zien dat dit tijdverspilling 
is!). Wel kunnen we {a”b”|n > 1} met een CFG genereren, bijvoorbeeld door 
de grammatica met de produktie 


S — aSblab 


te gebruiken. 

Als G = (N,T, P, S) een CFG is dan kan iedere x € L(G) worden afgeleid 
uit het startsymbool S, zoals we zagen. De afleiding van een niet-lege string 
x kan handig worden weergegeven met behulp van een zogenaamde afleidings- 
boom (ook wel een ontleedboom en in het Engels een parse tree genaamd). De 
wortel van de boom krijgt het label S en de blaadjes worden van links naar 
rechts a1, a2, ...,an met a; € T,1 < i < nen x = aıaa...an. De inwendige 
knopen van de boom labelen we met de nonterminale symbolen die we tijdens 
de afleiding van x gebruiken. Als A zo’n symbool is en als dit met behulp van de 
produktieregel A > X1 X2 ...Xm(Xi € NUT,i=1,...,m), wordt uitgebreid 
dan wordt knooppunt A de ouder van de m knooppunten X1, X2,...,Xm, en 
wel zoals in figuur 2.3 is aangegeven. 


Figuur 2.3 


In figuur 2.4 geven we ter illustratie de afleidingsboom die hoort bij de 
afleiding a?b? in de CFG, G4 met de produktieregels 
S— AB 
A —aAla 
B —bB|b 


Deze afleidingsboom komt precies overeen met de volgende afleiding 
S = AB 
=>aAB 
=>aaAB 
=> aaaB 
=> aaabB 
> aaabb. 
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Figuur 2.4 


Voor x € L(G) zijn meestal veel verschillende afleidingen mogelijk. In G4 
bijvoorbeeld zijn dit een aantal alternatieve afleidingen voor a3b?: 


S => AB = AbB > aAbB > aaAbB > aaAbb > aaabb, 
S = AB => aAB => aAbB > aAbb > aa Abb > aaabb, 
en S > AB > aAB > aaAB > aaAbB > aaabB > aaabb. 


De afleidingsboom heeft voor al deze afleidingen precies dezelfde vorm. 

Als elke afleiding voor z € L(G) leidt tot dezelfde afleidingsboom dan heet 
de CFG, G, ondubbelzinnig. Bestaan er twee of meer verschillende afleidings- 
bomen voor een x € L(G) dan heet G dubbelzinnig of ambigu. Ga is een 
voorbeeld van een ondubbelzinnige grammatica. 

Een afleiding van x € L(G) heet een linkerafleiding als x steeds de meest lin- 
ker nonterminaal is in de zinsvorm die wordt uitgebreid. Bij elke afleidingsboom 
behoort een unieke linkerafleiding en we kunnen daarom een dubbelzinnige 
grammatica definiëren als een CFG met een z € L(G) met twee verschillende 
linkerafleidingen. Zo’n dubbelzinnige taal is bijvoorbeeld Gs met produkties 


S — SbS]ScS]a 
In L(Gs) zit de string abaca en deze heeft twee verschillende linkerafleidingen. 


S => SbS > abS > abScS > abacS > abaca, 
S => ScS > SbScS > abScS > abacS > abaca. 


In de figuren 2.5a en 2.5b zijn de bijbehorende afleidingsbomen getekend. 
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Figuur 2.5 


2.3 Ontleden van rekenkundige uitdrukkingen 


We formuleren een eenvoudige BNF-grammatica voor het genereren van reken- 
kundige uitdrukkingen in de variabelen a, 6 en c. 


<expressie> ::= <term> |<expressie> + <term> | <expressie> <term> 
<term> ::= <factor> | <term> x <factor> |<term> / <factor> 
<factor> ::= a|b|c|(<expressie>) 


Als we E als startsymbool gebruiken dan kan deze grammatica als volgt in de 
formele notatie voor CFG’s worden uitgeschreven 


E—>T|E+T|E -T 
T — F|T x FIT/F 
F => alblel(E) 


Deze grammatica is ondubbelzinnig omdat er een unieke afleidingsboom be- 
staat voor elke string die kan worden gegenereerd. In figuur 2.6a wordt bij- 
voorbeeld de enig mogelijke afleidingsboom gegeven voor de expressie a x b+ c. 
Uit de afleidingsboom kan door een compiler een zogenaamde semantische 
boom worden geconstrueerd. We geven een dergelijke boom voor de uitdruk- 
king a x b+c in figuur 2.6b en het valt gemakkelijk in te zien hoe de boom kan 
worden geconstrueerd uit de bijbehorende afleidingsboom. Uit de semantische 
boom construeert de compiler vervolgens de machinecode voor de rekenkundige 
uitdrukking. Bij dit voorbeeld kan deze code er als volgt uitzien 


LOAD a 
MULT b 
ADD c 


De grammatica uit ons voorbeeld is een vereenvoudigde versie van de syntacti- 
sche definitie van rekenkundige uitdrukkingen in de programmeertaal Pascal. 
De grammatica is niet alleen ondubbelzinnig, maar de produktieregels zijn ook 
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(a) Afleidingsboom (b) Semantische boom 


Figuur 2.6 


zo handig geformuleerd dat elke semantische boom die uit een afleidingsboom 
wordt geconstrueerd ook leidt tot de gebruikelijke semantische interpretatie 
van de expressie. Zo liggen met name de prioriteitsregels voor rekenkundige 
bewerkingen (x en / eerst en vervolgens + en —) besloten in de grammatica. 
In figuur 2.7 hebben we nog wat voorbeelden weergegeven. 

Het zou ideaal zijn als de gehele syntaxis van iedere programmeertaal zou kun- 
nen worden gedefinieerd met behulp van CFG’s. Er is veel onderzoek naar 
dit soort grammatica’s verricht en de technieken voor het construeren van 
afleidingsbomen zijn volkomen helder. Als de CFG nog een paar extra ei- 
genschappen heeft die we in volgende hoofdstukken zullen behandelen, dan 
kunnen efficiënte ontleedalgoritmen worden geformuleerd. Jammer genoeg kan 
weliswaar het grootste deel van de syntaxis van een programmeertaal op deze 
manier worden gedefinieerd, maar er blijven altijd een aantal extra regels over 
die niet zo kunnen worden uitgedrukt. Dit betekent dat de kern van een com- 
piler wel bestaat uit een uitwerking van een ontleedalgoritme, dat leidt tot de 
constructie van een semantische boom, maar dat er behalve dat ook altijd be- 
paalde controles moeten worden uitgevoerd en dat bepaalde tabellen moeten 
worden bijgewerkt. 


2.4 De lege string in contextvrije grammatica's 


In onze definitie van CFG’s beperkten we de vorm van de produktieregels tot 
A — waarbij A een nonterminaal voorstelt en 9 elke willekeurige string van 
nonterminalen en terminalen mag zijn. Dit betekent dat we ook regels van 
de vorm A — € toelaten. Dergelijke regels zullen we e-produkties noemen. Dit 
soort produkties kan problemen geven bij het ontleden en ook bij het construe- 
ren van formele bewijzen over eigenschappen van grammatica’s. Een oplettende 
lezer heeft zich misschien al afgevraagd hoe dergelijke produktieregels in aflei- _ 
dingsbomen worden weergegeven. (We laten eenvoudig £ als blaadje toe.) Een 
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Rekenkundige uitdrukking 


a+bxe 


(a+b)xc 


a-—b-ec 


Afleidingsboom 


Figuur 2.7 
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Semantische boom 
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grammatica zonder e-produkties heet £-vrij. Het prettigst zou zijn als al onze 
contextvrije grammatica's e-vrij zouden zijn, maar als € € L(G) voor een of 
andere CFG, G, dan is het onmogelijk alle e-produkties uit G te verwijderen 
zonder dat daardoor de taal die door de grammatica wordt gegenereerd veran- 
dert. Het beste dat we misschien kunnen bereiken is een constructie van een 
CFG, G’, uit G, die wel e-vrij is, terwijl L(G’) = L(G)\{e}. Gelukkig is zo’n 
constructie inderdaad mogelijk en niet eens erg moeilijk. 

Veronderstel dat G = (N,T,P,S) een CFG met e-produkties is, dan is 

= (N,T, P’,S) en P’ wordt als volgt uit P geconstrueerd: 


1. Stop alle e-vrije produktieregels van P in P’. 
2. Bepaal alle nonterminalen A € N met A > €. Dit soort nonterminalen 


noemen we £-genererend. Voeg nu voor iedere p € P met één of meer 
e-genererende nonterminalen in het rechterlid aan P’ elke e-vrije pro- 
duktie toe die uit p kan worden geconstrueerd door één of meer van deze 
genererende nonterminalen weg te laten. 


We zullen nu bewijzen dat L(G’) = L(G)\{e}, maar eerst geven we een voor- 
beeld om de constructiewijze te verduidelijken. Pe dat G de volgende produk- 
tieregels heeft 


S —[E]IE 
E=T|E+T|E-T 
TFT x FIT/F 
F — alblele 


dan volgt hieruit S Že, ESET Še, en F Se. De uit G geconstrueerde 
e-vrije grammatica heeft dan de volgende produktieregels 


S— [EINE 

E—>T|E+T|E-T|E +|E — |+T]|- T|+|- 

T — FIT x FIT/FIT x |T/| x F\/F| x |/ 

F —= ajble 
Nu terug naar het bewijs. We bewijzen eerst een hulpstelling. 
Lemma Voor alle A € N en x € T* geldt A > x desd als A > E 


Bewijs Het bewijs bestaat uit twee gedeelten. 


Eerst bewijzen we dat uit A > x volgt dat A > x. Dit is vrij eenvoudig in te 


zien. Immers als X — 6 een edaktie in G’ is en volgt hieruit onmiddelijk 
dat X > Ê. Elke afleiding binnen G” kan dus ook worden gerealiseerd in G. 


Ten ‘Bok moeten we bewijzen dan uit A = x volgt dat A > £ voor 


alle A € N en x € TĦ. Dit doen we door middel van inductie naar n, het 
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aantal stappen in de afleiding van x uit A in de grammatica G. Als n = 0 
is het te bewijzen triviaal. Als n = 1 bestaat er een directe produktieregel 
A — z in Gen omdat x # e bestaat er dan ook zo’n regel in G’. Hieruit volgt 
A 2 z. Veronderstel nu dat het te bewijzen geldt voor alle afleidingen van 


een niet-lege terminale string uit een nonterminaal in k of minder stappen en 
stel dat A > z, k +1 stappen vergt. Er bestaat dan een produktie in P van 
de vorm A — Xi, X2,...,Xm, Xi € NUT, met A > ids >» iden 5 x. De 
terminale string x kan worden verdeeld in substrings z = £1£2 ... £m zodanig 
dat uit X; € N volgt dat X; = zi, en als X; € T dan volgt X; = 2; (en 
dus per definitie X; > z;). Enkele van de strings z; (1 < i < m) kunnen leeg 
zijn omdat het e-produkties in G zijn. Veronderstel dat de indices 1 < il < 
12 <<... < ir < m de niet-lege strings Zii, Zi2,...Zir aangeven. Dan geldt 
LF 24x 2iQ..-Lir en Aij > Tij, j =1,...,r. Al deze afleidingen kosten k of 
minder stappen en dus weten we op grond van onze inductieveronderstelling 
dat Xij = Tij, j =1,...,r. Omdat A — Xj, Xj2...Xip een produktie in G' 
is, volgt dat A = z en dit geldt voor alle afleidingen van k + 1 stappen. Uit 
inductie naar k volgt nu dat het te bewijzen geldt voor alle afleidingen. 

Uit dit lemma volgt onmiddellijk dat z € Tt, S > zx, desd 5 = z. Dus 


geldt z € L(G)\{e} desd als x € L(G’) en hiermee hebben we de volgende 
stelling bewezen. 


Stelling 2.1 


Voor elke CFL, L, bestaat er een e-vrije CFG, G, zodat L(G) = L\{e}. 

Als in het vervolg voor één of andere CFL, L geldt dat € € L dan zullen we 
eisen dat de enige produktie in een CFG, G, die L genereert van de vorm S — € 
is. We mogen in dat geval ook aannemen dat S niet in het rechterlid van enige 
andere produktie voorkomt. Dit geldt op grond van de volgende redenering. 
Zij G = (N,T,P,S) een e-vrije grammatica die L\{e} genereert. Zij nu S' 
een nieuw nonterminaal symbool en definieer G’ = (N U {S’},T, PU{S’ — 
lS}, 5’). G' heeft nu alle gewenste eigenschappen en L(G’) = L. 


2.5 Oefeningen 


1. Beschrijf contextvrije grammatica’s voor de volgende talen: 


(a) alle strings in {0,1}*, waarbij na elke 0 onmiddellijk een 1 volgt; 


(b) alle strings in {0,1}* die palindromen zijn. Een palindroom is een 
string die gelijk blijft als men hem omkeert; 


(c) alle strings in {0,1}* met twee keer zoveel nullen als enen. 
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. Bekijk de CFG met produktieregels 


S— AB 
A— SA|BB|bB 
B — bla Ale 


Ontwerp een equivalente grammatica met alleen de e-produktie S — e. 


. Bewijs dat de grammatica met als produktieregels 


S —bAlaB 
A—alaS|bAA 
B — b|bS|a BB 
de taal in {a,b}* genereert die bestaat uit strings met evenveel a’s als 


b’s. (Hint: bewijs met inductie dat voor elke zinsvorm de som van het 
aantal a’s en A’s gelijk is aan die van het aantal b’s en B’s.) 


. Bewijs dat L(G2) = {a"b"c”|n > 1}. Ga is de voorbeeld-PSG uit dit 


hoofdstuk. 


. Bewijs dat de grammatica uit oefening 2.3 dubbelzinnig is. Bewijs door 


uit te gaan van de grammatica met de volgende produktieregels 


S—aBS|aB|bAS|bA 
A —bAAla 
B —aBB|ö 


dat er ook een ondubbelzinnige grammatica voor dezelfde taal bestaat. 
(Dit is niet altijd het geval. Er bestaan inherent dubbelzinnige context- 
vrije talen. Voor deze talen bestaan geen ondubbelzinnige grammatica’s.) 


. Als elke produktie in een grammatica G die geen e-produktie is, de vorm 


A — aB of A — a heeft,waarbij A,B € N en a € T, dan heet G een 
reguliere grammatica. Bewijs dat de e-vrije grammatica G’ die in het 
bewijs van stelling 2.1 uit G werd geconstrueerd regulier is als G regulier 
is. 


. Toon met behulp van de Pascal-syntaxis aan dat de volgende teksten 


toegelaten Pascal-programma’s zijn. 


(a) program ex(output); 
begin 
if 1 + 1 = 2 then write (‘hoera’) 
end. 


(b) program ex2; 
begin 
write(1 + 1) 
end. 
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(c) program copy(f1, f2); 
var f1, f2: file of char; 
begin reset (f 1); rewrite (f 2); 
while not eof (f1) do 
begin £2} := f1; put (f2); get (fl); 
end 
end. 


8. Construeer een Pascal-programma dat syntactisch correct is maar dat 
niet door een Pascal-compiler wordt geaccepteerd. 


Hoofdstuk 3 


Reguliere talen 


Moeten kiezen maakt het leven moeilijk. 
—GEORGE MOORE 
The Bending of the Bough 


Tekenloze gehele getallen kunnen als volgt in BNF worden gedefinieerd. 


<getallenrij> ::= 0]1|2|3|4|5|6|7|8|9 
|0 <getallenrij> |1 <getallenrij> |2 <getallenrij> 
|3 <getallenrij> |4 <getallenrij> |5 <getallenrij> 
|6 <getallenrij> |7 <getallenrij> |8 <getallenrij> 
|9 <getallenrij> 

<tekenloos geheel getal> ::= 0|1|2|3|4|5|6|7|8|9 
|1 <getallenrij> |2 <getallenrij> |3 <getallenrij> 
|4 <getallenrij> |5 <getallenrij> |6 <getallenrij > 
|7 <getallenrij> |8 <getallenrij> |9 <getallenrij> 


Elk rechterlid in dit voorbeeld is óf een eenvoudig terminaal symbool, óf een 
terminaal gevolgd door een nonterminaal. Alle elementaire symbolen in pro- 
grammeertalen (gehele getallen, namen van variabelen, operatoren, gereser- 
veerde woorden, leestekens, enzovoort) kunnen met dit type regels worden 
gedefinieerd. Veel van de tijd die nodig is om een programma te compileren 
wordt besteed aan het herkennen van dit soort elementaire symbolen en er is 
daarom zeker reden om grammatica’s met produktieregels van deze vorm na- 
der te bestuderen. Dit type grammatica’s heet regulier en de talen die erdoor 
worden gedefinieerd heten reguliere talen. In dit hoofdstuk zullen we zien dat 
reguliere talen op een heel efficiënte manier kunnen worden herkend en dat 
hun grammatica’s veel gunstige eigenschappen bezitten. Jammer genoeg zijn 
reguliere grammatica’s erg beperkt in hun mogelijkheden; je kunt er zelfs de 
eenvoudigste programmaconstructies niet in beschrijven. Tijdens de compilatie 
kunnen ze alleen gebruikt worden voor het herkennen van de elementaire sym- 
bolen in een programma; dit heet de scanning fase of de lexicale analyse. Als 
deze fase klaar is dan zijn er verfijndere technieken nodig om het programma 
verder te ontleden. Enkele van deze technieken zullen we in latere hoofdstukken 
tegenkomen. 
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3.1 Reguliere grammatica's 


Een frasestructuurgrammatica G = (N,T, P, S) heet een reguliere grammatica 
onder de volgende voorwaarden: 
(i) als er een e-produktie in G voorkomt dan is die van de vorm S — € en dan 
verschijnt S niet als een substring in het rechterlid van enig andere produktie 
in P; | | 

(ii) alle andere produktieregels hebben de vorm 


Â—a met AEN‚.aeT 
of 
A=aB met A,BeNenaeT 


Een taal heet een reguliere taal dan en slechts dan als zij door een reguliere 
grammatica wordt voortgebracht. Uit de definitie en de opmerkingen na stelling 
2.1 is het duidelijk dat L een reguliere taal is desd als L\{e} wordt gegenereerd 
door een e-vrije reguliere grammatica. 

De reguliere grammatica G1 met de produktieregels 


S —aSlaB 
B—bBIb 


genereert de reguliere taal L(Gı) = {a™b"|m, n > 1}. Dit specifieke voorbeeld 
is €-vrij omdat e ¢ L(G,). De reguliere taal L = L(G,)U{e} wordt gegenereerd 
door de reguliere grammatica met produktieregels 


S => elaS¡ laB 
51 > aSı |aB 
B—bBlb 


Elke produktieregel in een reguliere grammatica vervangt een nonterminaal 
door een string die hoogstens één nonterminaal bevat. Hieruit volgt dat elke 
zinsvorm ofwel in T* zit ofwel precies één element van N bevat. Verder is nood- 
zakelijkerwijs elke nonterminaal in een zinsvorm het meest rechter symbool in 
die zinsvorm. 

Hebben we eenmaal een e-vrije reguliere grammatica G = (N,T, P, S) die 
L genereert dan kunnen we gemakkelijk een e-vrije reguliere grammatica Gt = 
(N,T, P+,‚S) construeren die L+ genereert. We doen dat door produkties P+ 
uit P te construeren door steeds produkties van de vorm A — a in P te 
vervangen door produkties van de vorm A — aS. Gi leidt dan tot G+ met 
produktieregels 


S —aSlaB 
B— bBIb|bS 
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Als we terugkeren tot het algemene geval dan moeten we bewijzen dat L(G*) = 
L*, dus dat L(G*) C Lt en dat L* C L(G*). We bewijzen eerst dat L(G+) C 
L+. Als z € L(G*) dan zullen we door middel van inductie naar n (het aantal 
‘nieuwe’ produkties in PHP dat we bij de afleiding van z gebruiken) bewijzen 
dat x € Lt. Als n = 0 dan werden bij de afleiding alleen produkties uit P 
gebruikt en dus is z € L en dus ook x € Lt. Veronderstel nu dat als n < k 
geldt dat x € Lt en ga uit van een afleiding van z € L(G*) die k nieuwe 
produktieregels gebruikt. Stel dat A — aS de laatste van die produktieregels 


: + * fi E sE 
is dan volgt S => yA = yaS => yaz = z, met y‚zeT*’enaeET. yaS = yaz 


vergt geen nieuwe produkties en dus volgt yaS > yaz en dus S > z, dat wil 


zeggen dat z € L. Ook geldt, omdat A — aS een nieuwe produktieregel is, dat 
er een produktie A — a in P moet bestaan. Dus is S > yA + ya een afleiding 


van ya € L(G*) waarvoor minder dan k nieuwe produktieregels nodig zijn. Uit 
de inductieveronderstelling volgt nu dat ya € Lt. Als ya € Lt en z € L dan 
volgt hieruit dan x = yaz € L* en hiermee hebben we het eerste deel bewezen. 

Vervolgens bewijzen we dan L+ C L(G*). Als z € Lt dan is z € L” voor 
een n > 1. We bewijzen met inductie dat uit z € L” volgt dat z € L(G*). 
Als n = 1 dan geldt z € L en dus kan z uit S worden gegenereerd door 
alleen gebruik te maken van produkties in G. Al deze produkties bevinden 
zich ook in Pt en dus is de afleiding ook binnen Gt toegelaten. Hieruit volgt 
dat x € L(G*). Veronderstel dat het te bewijzen geldt voor allen < k en ga 
uit van x € L*. Dit wil zeggen dat x = yz met y € Len ze Lk-!. Zij nu 
F > y een afleiding van y in G. De laatste produktieregel die bij deze afleiding 


werd gebruikt is van de vorm A — a met y = y'a en y/ € T*. A —aS is dus 
een produktie in Pt en dus is yS een zinsvorm uit Gt en hieruit volgt weer 
dat yz € L(G*). Hiermee is het tweede deel bewezen. 

Als L een willekeurige reguliere taal is dan is L* = (L\{e})* U {e}. We 
hebben aangetoond dat (L\{e})* een reguliere taal is en dus geldt dit ook voor 
L*. Hiermee hebben we het eerste gedeelte van de volgende stelling bewezen. 


Stelling 3.1 


(a) Als L een reguliere taal is dan is de Kleene afsluiting van Z, L* dit ook. 
(b) Als Lı en Lz reguliere talen zijn dan geldt dit ook voor Lı U Lz en Lj La. 


Het bewijs van het tweede gedeelte van de stelling berust ook op het con- 
strueren van nieuwe grammatica’s uit oude. We geven hier een schets van die 
constructies, maar laten de invulling van het bewijs aan de lezer over. 

Bij het bewijs van de eigenschap voor de vereniging mogen we veronderstel- 
len dat Lı en La beide e niet bevatten. (Als € € Lj of € € Lz dane € L1 U Lz en 
dan kan de grammatica die L¡ULz2 genereert gemakkelijk worden geconstrueerd 
uit een grammatica die (L,\{e}) U (La\{e}) genereert.) Voordat we de con- 
structie beschrijven geven we eerst een voorbeeld. Zij Lj = {a”b"|m,n > 1} de 
taal die wordt gegenereerd door de grammatica Gj die we hiervoor beschreven 
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en stel dat La wordt gegenereerd door een grammatica G2 met produktieregels 
S — cSlc 


Dus is Lz = [c”|n > 1}. Onze eerste poging om een grammatica te definiëren 
die L1 U L2 genereert, zou er uit kunnen bestaan eenvoudig alle produktieregels 
van G; en van Ga uit te schrijven. Dit is echter een foute benadering omdat de 
door elkaar lopende produktieregels strings ¢ L¡UL2 zouden kunnen genereren. 
Zo zouden we in ons voorbeeld kunnen krijgen 


S => aS > ac 


We moeten er daarom voor zorgen dat elke afleiding ofwel alleen produktiere- 
gels uit Gj, ofwel alleen uit G2 gebruikt. Om dat mogelijk te maken moeten 
we de nonterminale symbolen uit G; en Gz van elkaar kunnen onderscheiden. 
We herschrijven daartoe Gi = ({51, Bi}, {a,b}, Pi, S1) met een verzameling 
produktieregels P, gedefinieerd door 


Sy ie aS;|aB, 
Bı > bB,|b 


en G2 = ({S2}, {c}, Pa, S2) met Po gedefinieerd door 
Sa cebo cSa|c 


Si, Bı en Sz zijn verschillende symbolen. Nu willen we alle produktieregels 
combineren en óf Sı óf Sa als startsymbool kiezen. Er kan maar één startsym- 
bool zijn, laten we dat dus S noemen. De regel S — S,|S_ mogen we niet 
opschrijven, want dit soort regels is in reguliere grammatica’s niet toegelaten. 
Wat we wel kunnen doen is gebruik maken van produkties van de vorm S > a 
voor alle a zodanig dat of Sı — a een produktie in Gi is of Sp — a een 
produktie in G2. De reguliere grammatica voor ons voorbeeld heeft dan de 
volgende produktieregels 


S— aSı |aBı|cSa lc 
Sı > aSılaBı 
Bı — bB,|b 
Sa Bid cSalc 


Het is vrij eenvoudig in te zien dat we met deze grammatica strings van de 
vorm {a”b"|m,n > 1}U [c”|n > 1} genereren. 

Na deze overwegingen kunnen we de formele constructiewijze aangeven. 
Stel Gi = (N1,Tı, Pi, S1) en G2 = (N3, Ta, Pa, Sa) zijn e-vrije reguliere gram- 
matica's die respectievelijk de talen Lı en Lə genereren. Zonder verlies van 
algemeenheid mogen we veronderstellen dat N, NN = Ø. Zij SE Ni UN) een 
nieuw symbool en construeer G = (Ni UN2U{S}, 7, UT», PLU P2U P3, S), waar- 
bij P3 de verzameling van alle produktieregels S — a voorstelt met Sı — a in 
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P, of S2 — a in P}. Het formele bewijs dat L(G) = L(G,) U L(G2) wordt aan 
de lezer overgelaten. 

We kunnen ook een grammatica G’ uit Gi en Ga construeren zodanig dat 
L(G") = L(G¡)L(G2). Als we bedenken dat N, N No = Ø, dan is G' = (N, U 
N2,T; UT», P’, S1). Hierbij is P’ de verzameling van alle produkties van P, en 
Pa, behalve dat elke produktie uit P) van de vorm A — a is vervangen door 
A — aS. Opnieuw is het aan de lezer een en ander formeel te bewijzen. De 
constructie leidt bijvoorbeeld tot de volgende verzameling van produktieregels 


Si jp aS, laBı 
B, y bB,|bS» 
Sa ek cSale 


3.2 Eindige automaten 


Elke reguliere grammatica G = (N,T, P, S) kan worden voorgesteld door een 
gerichte graaf met gelabelde kanten en knopen. De knopen in de graaf zijn allen 
verschillend en gelabeld met verschillende elementen uit N. Verder is er een 
speciale ‘halt’-knoop met het teken # als label. Het is gebruikelijk de knoop 
met het startsymbool S van een extra pijl te voorzien terwijl de haltknoop als 
een vierkantje wordt getekend. Als er een produktie A — aB in P voorkomt 
dan wordt knoop A verbonden met knoop B door een gerichte kant met als 
label a. Komt er een regel A — a voor in P dan wordt A met een gerichte kant 
a verbonden met de haltknoop #. Elke kant in de graaf komt zo overeen met 
één en niet meer dan één produktie in P. 
De reguliere grammatica G3 met produktieregels 


S —aA|bB 
A —aAla 
B —bB|b 


wordt dan weergegeven,door de gelabelde digraaf uit figuur 3.1 

Loop nu eens langs een willekeurig pad van de startknoop S naar de halt- 
knoop (of eindknoop) #. De labels van de bij dit pad behorende kanten vormen 
samen een string. De verzameling van al dergelijke strings is juist de taal L(G3) 
en elk pad komt op natuurlijke wijze overeen met een afleiding. Zo komt het 
pad van ©) naar @), weer naar (A), nog eens naar @ en vervolgens naar [+] 
overeen met de afleiding S > aA > aaA > aaaÂ > aaaa. 
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Figuur 3.1 


Een gelabelde digraaf met een vaste startknoop en één (of meer) eindkno- 
pen beschrijft een eindige automaat (ook wel een eindige toestandsmachine 
genoemd). We beperken ons om te beginnen tot deterministische eindige au- 
tomaten, waarbij hoogstens één kant met hetzelfde label elke knoop verlaat. 
Het voorbeeld in figuur 3.1 is nondeterministisch omdat er twee kanten a uit 
knoop A vertrekken. | 

Een deterministische eindige automaat (Engels: deterministic finite state 
automaton of DFSA) is een vijftupel M = (K,T,t,kı, F) met 


(a) K is een eindige verzameling toestanden, 

(b) T is een eindig invoeralfabet, 

(c) t is een (mogelijk partiële) overgangsfunctie K x T — K die aangeeft 
welke de volgende toestand zal zijn gegeven de huidige toestand en de 
input, | 

(d) kı € K is de begintoestand, . 

(e) FC K is een verzameling eindtoestanden. (Noot: elke toestand in K kan 
worden aangewezen als eindtoestand.) 


Grafisch zullen we DFSA’s weergeven als gelabelde digrafen met een pijl ver- 
wijzend naar de begintoestand kı en met vierkantjes voor de eindtoestanden 
k € F. In figuur 3.2 ziet u een voorbeeld. Als vijf-tupel kunnen we deze DFSA 
beschrijven als ({A, B,C, D, E}, {a,b},t, A,{D, Ej) met de volgende tabel ter 


definitie van de overgangsfunctie t: 
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Figuur 3.2 


toestand input volgende toestand 
(K) (T) (K) 


B 
C 
D 
B 
D 
C 
E 
E 


Ove» 
Ra m m 2 SA 8 


In dit geval is t een partiële functie omdat noch t(D, a), noch t(E,b) gedefi- 
nieerd zijn. We kunnen t ook weergeven met een zogenaamd overgangsarray. 
Als M = (K,T,t,kı,F) een* DFSA is, dan is het overgangsarray dat t defi- 
nieert een matrix A; met dimensies #(K) x #(T). De elementen van A; zijn 
gehele getallen. Noemen we de toestanden kı,ka,...,k„ en het inputalfabet 
@1,42,...,@m dan is A:(i, j) = l desd als t(kı,a;) = kı. Als we in ons voor- 
beeld de toestanden en de inputsymbolen alfabetisch ordenen dan wordt de 
overgangsmatrix 


A m 
SW NO Go 
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Als t, zoals in dit voorbeeld, partieel is, dan zijn niet alle elementen uit de 
matrix gedefinieerd. 

We zijn geïnteresseerd in de strings die bestaan uit labels langs de paden 
vanuit de starttoestand naar de eindtoestanden van een DFSA. De verzameling 
van al dergelijke strings voor een bepaalde DFSA, M, wordt weergegeven door 
T(M) en heet de verzameling van strings die door M worden geaccepteerd. 
Om dit formeel te definiëren moeten we eerst de functie t van K x T — K 
uitbreiden naar K x T* — K. Alsk € K en z € T* dan willen we dat t(k, x) de 
toestand voorstelt die we bereiken als we in toestand k zijn en een pad z volgen. 
Als x = € dan is duidelijk dat t(k,¢) = k. Anders is z = ay voor een a € T en 
een y € T* en dan kunnen we t recursief definiëren door t(k, x) = t(t(k, a), y). 

In ons voorbeeld krijgen we dan 


t(A, aba) = t(t(A, a), ba) 


= t(B, ba) 
= t(t(B,b), a) 
= £8 a} =D. 


Nu kunnen we de verzameling strings T(M) C T* definieren die wordt geac- 
cepteerd door een DFSA, M = (K,T,t, kı, F): 


T(M) = {x E T"|u(k,, 2) € F}. 


Als u bezwaar heeft tegen het feit dat de overgangsfunctie t in een DFSA, M, 
partieel kan zijn, dan is dit op te lossen door het toevoegen van een dummy- 
toestand A. Ongedefinieerde waarden t(k, a) kan men nu de waarde t(k,a) = A 
geven en verder stellen we ook t(A,a) = A voor alle a € T. De DFSA uit ons 
eerdere voorbeeld gaat er dan uitzien als in figuur 3.3 is getekend. (De twee 
labels a,b bij de kant vanuit de dummy-toestand is een verkorte weergave van 
twee kanten die respectievelijk a en b gelabeld zijn.) Wellicht bezwaarlijker 
is de beperking dat de automaat deterministisch moet zijn. Onze volgende 
stap is daarom om meer dan één kant met een gegeven label vanuit een zelfde 
knoop toe te laten. Als nu de overgangsfunctie t wordt toegepast op K x T 
levert dit een verzameling van mogelijke nieuwe toestanden in plaats van maar 
één toestand. Als er geen volgende toestanden bestaan voor een bepaald paar 
(k,a) € K xT dan is t(k, a) = Ø en omdat De 2% (2% stelt de verzameling 
van alle mogelijke deelverzamelingen van K voor; de machtsverzameling), volgt 
datt: K x T — 2% altijd een totale functie is. 
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Figuur 3.3 


Een nondeterministische eindige automaat (NFSA) is een vijf-tupel M = 
(K,T,t,k,, F) met 


(a) K is een eindige verzameling toestanden, 

(b) T is een eindig inputalfabet, 

(c) t is een totale functie K x T — 2%, de overgangsfunctie genaamd, 
(d) kı € K is de tevoren aangewezen begintoestand, 

(e) FC K iseen verzameling eindtoestanden. 


De eindige automaat in figuur 3.1 was, zoals we eerder zagen, non-determinis- 
tisch. Haar overgangsfunctie wordt gedefinieerd door de volgende tabel 


Ee Hee F 

S a {A} 

S. -9 1D} 

A a (4,4) 
A b 

B a 

B b {B,#} 
# a Q 

# b Ø 


Voordat we de verzameling strings kunnen definiëren die door een NFSA wordt 
geaccepteerd moeten we weer de overgangsfunctie t uitbreiden. Allereerst laten 
we t opereren op 2% x T door te definiëren 
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(CR ja) = |} t(k, 4) 
keK' 
voor K'CK,aeT. 

Als de automaat in een van de toestanden in K’ is en we volgen een kant 
met label a € T dan is de verzameling toestanden die we kunnen bereiken 
bepaald door t(K”*, a). We breiden t nu opnieuw uit, deze keer tot een functie 
op 2% x T* — 2%. We gebruiken hierbij dezelfde methode als eerder bij de 
DFSA’s. Als K' C K dan is t(K',e) = K' en als z = ay,a € T en y € T* dan 
is t(K”, 2) =t(t(K”, a), y). 

Als we de NFSA uit figuur 3.1 gebruiken dan krijgen we bijvoorbeeld 


t({S, A}, ab) =t(t({S, A}, a), b) 
= t(t(S, a) U (A, a), b) 
= t({A, #},b) 
= t(A,b) U (#, b) = @. 


Voor een willekeurige NFSA M = (K,T,t,k,, F) definieren we nu T(M), de 
verzameling strings die door M worden geaccepteerd, als juist die strings die 
overeenkomen met de labels op de paden die van een begintoestand naar een 
eindtoestand leiden. Formeler, 


T(M) = {rz €T*|t({ki}, 2) NF 40D). 


Het lijkt er op het eerste gezicht misschien op dat NFSA’s veel krachtiger 
mechanismen zijn dan DFSA’s, maar dit is merkwaardigerwijs niet het geval. 


Stelling 3.2 


L wordt geaccepteerd door een DFSA dan en slechts dan als L wordt geaccep- 
teerd door een NFSA. 
Bewijs: 

>: Bij elke DFSA bestaat er een equivalente DFSA met een totale over- 
gangsfunctie die gemakkelijk kan worden geconstrueerd door het toevoegen van 
een dummy-toestand. We veronderstellen dus dat L C T* zodanig is dat L = 
T(M) voor een of andere DFSA, M = (K,T, t, kı, F), waarbij t een totale func- 
tie is. We kunnen van zo’n DFSA eenvoudig een NFSA M’ = (K,T,t’, kj, F) 
maken door t'(k,a) = {t(k,a)} te definiëren. Uit de definities volgt dan dat 
T(M) = T(M"). 

<=: Stel M = (K,T,t,ki, F) is een NFSA. We gaan nu een DFSA con- 
strueren die T(M) accepteert. Deze DFSA heeft als toestandsverzameling de 
machtsverzameling 2%, dat wil zeggen de verzameling van alle mogelijke deel- 
verzamelingen van K. Verder een inputalfabet T, een begintoestand {ki} en 
een overgangsfunctie gedefinieerd als de uitbreiding van t op 2 x T — 2#. 
Per definitie geldt nu z € T(M) desd als t((k,), £) N F # Ø. Als we dus 
de eindtoestanden van de DFSA precies gelijk maken aan die verzamelingen 
K’ C K, waarvoor geldt K'N F # @, dan is hiermee de constructie voltooid. 
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b 


Figuur 3.4 


In de praktijk is het niet erg moeilijk om een NFSA om te zetten in een equi- 
valente DFSA, die dus dezelfde taal accepteert. We bepalen onze aandacht om 
te beginnen tot de toestanden die uit de begintoestand {kı} kunnen worden 
bereikt. Dus in plaats van alle 2#(*) mogelijke toestanden te bekijken, begin- 
nen we eenvoudig met {kı} en berekenen t({k,}, a) voor alle a € T. Zo krijgen 
‚we een aantal nieuwe toestanden die met {k,} direct verbonden zijn. Voor elke 
toestand K’ berekenen we vervolgens t(K”, a) voor alle a € T en we voeren 
zonodig nieuwe toestanden in. Dit proces herhalen we totdat er geen nieuwe 
toestanden meer worden ingevoerd. Omdat er maximaal 2#(*) toestanden kun- 
nen worden geconstrueerd weten we zeker dat het constructieproces eindig is. 
In figuur 3.4 is de DFSA getekend die equivalent is met de NFSA uit figuur 
3.1. De toestand met label @ is in feite een dummy-toestand en kan samen 
met alle kanten die er heen leiden worden verwijderd. 
We kunnen nu de belangrijkste stelling over eindige automaten bewijzen. 


Stelling 3.3 


De volgende beweringen zijn gelijkwaardig: 


(i) L wordt geaccepteerd door een NFSA 
(ii) L wordt geaccepteerd door een DFSA 
(iii) ZL wordt gegenereerd door een reguliere grammatica. 
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Bewijs: 
In stelling 3.2 toonden we al aan dat bewering (i) en (ii) equivalent zijn. Hier 
zullen we bewijzen dat (ii) > (iii) en dat (iii) > (i). Het volledige formele 
bewijs laten we aan de lezer over. | 

(ii) > (iii): Veronderstel dat L geaccepteerd wordt door een DFSA M = 
(K,T,t,k,, F). Zonder verlies van algemeenheid mogen we aannemen dat KN 
T = Ø. We construeren nu een reguliere grammatica G met L(G) = T(M)\{e}. 
(Als € € T(M) dan is kı € F en dan kunnen we gemakkelijk een reguliere 
grammatica G’ uit G construeren met L(G’) = L(G) U {e} = T(M).) De 
grammatica die we nodig hebben is G = (N,T,P,S) met N= K, S = kı 
terwijl P bestaat uit alle produkties k; — ak; met t(k;,a) = k; samen met alle 
produkties k; — a met t(k;,a) = k; en k; € F. Als we bijvoorbeeld de toestan- 
den uit figuur 3.4 opnieuw benoemen en de dummy-toestanden weglaten, dan 
krijgen we de DFSA uit figuur 3.5. Bij deze automaat hoort een grammatica 
met toestanden {kı, k2, k3, ka, ks}, begintoestand kj en produktieregels 


kı > akolbka 
k2 — akgla 
k3 — akgla 
ka — bks|b 
ks — bks|b 


Bewijs nu formeel dat x € L(G) desd als z € T(M)\{e}. 

(ili) > (i): Deze constructie is in feite de reden waarom we ons on- 
derzoek naar eindige automaten begonnen. Als L = L(G) gegeneerd wordt 
door G = (N,T,P,S) dan wordt L geaccepteerd door een NFSA = (N U 
{#} T,t,S, {#}). Hierbij is # een nieuw symbool ¢ N en t wordt volgens de 
volgende regels gedefinieerd. Als A — a een produktieregel in P is dan bevat 
t(A,a) het symbool # en als A — aB een produktieregel in P is dan bevat 
t(A,a) B. Alle symbolen uit t(A, a) worden volgens deze regels gegeneerd. 

Omdat er voor elke reguliere taal L een DFSA, M, bestaat met T(M) = L 
beschikken we over een efficiënte methode om te testen of een willekeurige 
string x al dan niet tot L behoort. We construeren eenvoudig de machine M 
en controleren of er een pad met label x bestaat vanuit de begintoestand naar 
een eindtoestand. Omdat we eisen dat M deterministisch is, weten we dat 
er hoogstens één pad is met die eigenschap. We kunnen desgewenst ook een 
dummy-toestand gebruiken; in dat geval is er altijd precies één pad vanuit de 
begintoestand voor iedere x € T* en we hoeven alleen maar te controleren of 
dit ons naar een eindtoestand brengt. 

Nu we hebben aangetoond dat de reguliere talen juist die talen zijn die door 
DFSA’s of NFSA’s worden geaccepteerd, kunnen we met dit resultaat nog een 
paar interessante stellingen bewijzen. 
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Figuur 3.5 


Stelling 3.4 


Als L een reguliere taal in T* is, dan geldt dit ook voor het complement van 
beke TAL, 


Bewijs: 

Zij M=(K,T,t,kı, F) een DFSA die L accepteert. Door zo nodig een dummy- 
toestand in te voeren kunnen we ervoor zorgen dat de overgangsfunctie t totaal 
is. Als x € L, dan is er in de digraaf die M voorstelt een pad met label x vanuit 
de begintoestand kı naar een eindtoestand. Als z ¢ L dan moet het t pad vanuit 
kı met label x leiden naar een toestand die geen eindtoestand is. L wordt dus 
geaccepteerd door M = (K,T,t, kı, K\F) en dus is ook L een reguliere taal. 


Stelling 3.5 


Als Lı en La reguliere talen zijn dan geldt dit ook voor hun doorsnede Li NL». 


Bewijs: . 

De complementen L, en Ly zijn volgens stelling 3.4 beide reguliere talen. Vol- 
gens stelling 3.1b geldt dit dus ook voor hun vereniging Lı U Ls. We passen 
nu opnieuw stelling 3.4 toe en hieruit volgt het te bewijzen, omdat immers 
Lı N La = ds Ula. 
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3.3 Eindige automaten met e-stappen 


Als we de definitie van een nondeterministische eindige automaat, (NFSA) zo 
wijzigen dat er geen input nodig is om van de ene toestand naar de andere te 
gaan, dan spreken we van een automaat met e-stappen. Formeler: een NFSA 
M =(K,T,t, kı, F), heeft e-stappen als t in plaats van als een functie K xT — 
2K is gedefinieerd als een functie K x (TU {e}) — 2*. In figuur 3.6 is een 
voorbeeld getekend van zo’n NFSA. 

Als M = (K,T,t,k,, F) een NFSA is met e-stappen en k,k’ € K zijn 
zodanig dat k’ € t(k, e) dan noemen we k’ e-bereikbaar vanuit k en we schrijven 
k T k'. In zo’n geval kan M dus van toestand k in toestand k’ overgaan zonder 


dat hiervoor enige input nodig is. Zij nu ~ de reflexieve transitieve afsluiting 
€ 


van €. In dat geval geldt k Ž X desd als k = k’ of als er een pad van k naar k’ 


met lengte > 1 bestaat, waarvan elke kant met £ gelabeld is. Als k € K dan 
geven we de verzameling van toestanden die vanuit k bereikbaar zijn zonder 


verdere input weer door R(k). Er geldt dus R(k) = {k’|k - k'}. We breiden 
de definitie uit tot: als K’ C K dan is 


R(K')= |) R(k). 
kek! 
In ons voorbeeld geldt R(A) = {A,B,C}, R(B) = {B}, R(C) = {C} en 
R(D) = {D}. Dus R({A, B}) = R(A) U R(B) = {A, B,C}, enzovoort. 

We moeten nu eerst de overgangsfunctie t van onze NFSA uitbreiden met 
e-stappen tot een functie Ê : K x (TU {e}) — 2%, waarvoor geldt dat als 
k € K, dan is t(k, a) de verzameling toestanden die we kunnen bereiken vanuit 
toestand k na input a. Wegens de e-stappen is Ê niet eenvoudig gelijk aan t. 
Als we in het voorbeeld in toestand A zijn dan geldt t(A,a) = {B}, maar ook 
D, A zelf en C zijn bereikbaar met alleen input a. Om in D te komen ga je 
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eerst naar B zonder input en dan naar D met input a. Om naar A te komen 
ga je naar C zonder input en dan keer je terug naar A met input a. C kan dan 
weer zonder input worden bereikt. We definiëren dus t : K x (TU {e}) — 2% 
als 


t(k,e) = R(k) 
en 
i(k, a) = . U R(t(k',a)), vooralle kEK,aET. 
k'ER(k) 
_In het voorbeeld krijgen we 


i(k, a) = R(A) = {A, B,C}, 
Ani. 10. A(k, a) 


k'€{A,B,C} 
= R({B}) U RÜ{D}) U R({A}) 
= (A, B,C, D}, 
Î(A,b)= |) R(t(k’,d)) 
k'€{A,B,C} 
= R({D}) U RÜB}) U REC, D}) 
= {B,C, D}, 


enzovoort. | | 
We breiden de functie t nu uit tot 2X x (TU {e}) — 2 door voor K' C K en 
a € T te definiëren 


t(K',e) = R(K'), 
en 


i(K',a) = |) é(k,a). 
keK' 
Vervolgens definiëren we f : 2£ x T* — 2K door te stellen 
t(K',azx) = t(t(K',a),xz), vooralle K'C K,a€eT,r ET”. 


De verzameling strings die worden geaccepteerd door de NFSA met e-stappen 
M = (K,T,t,k,, F) definieren we nu formeel als 


T(M) = {z E T*|i({ki}, 2) NF 40). 


Als M zo’n automaat is, dan kunnen we uit M de NFSA M’ = (K,T,t', ki, F') 
construeren met t'(k, a) = t(k, a) en F’ = F als R(kı)NF = @ en anders kiezen 
we F’ = FU{kı}. M’ heeft geen e-stappen en het is niet moeilijk aan te tonen 
dat T(M) = T(M'). Dit leidt tot 
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a, Gs 


Figuur 3.7 


Stelling 3.6 


Als L wordt geaccepteerd door een NFSA met e-stappen, dan is L een reguliere 


taal. 


De gelijkwaardige NFSA zonder e-stappen die we uit ons voorbeeld kunnen 
construeren is getekend in figuur 3.7. 


3.4 


1. 


= 


Oefeningen 
Laat L de verzameling strings in {0, 1}* voorstellen zodanig dat elke 0 
als directe rechter buurman een 1 heeft. 


(a) Construeer een reguliere grammatica die L genereert. 
(b) Construeer een deterministische eindige automaat die L accepteert. 


. Zij L een reguliere verzameling. Stel Pref(L) = {z|z is een prefix van een 


string in L}. Bewijs dat Pref(L) ook regulier is. (Hint: gebruik het feit 
dat L = T(M) voor een of andere DFSA, M.) 


. Schrijf de formele bewijzen van stelling 3.1b uit. 
. Zij M = ({ki, k2, k3}, {a,b}, t, kı, {k3}) een NFSA met t(k,,a) = 


{ko, k3),t(k2, a) = [k1,k2),t(k3, a) = [k1, ka}, t(ki,b) = {ki}, t(k2, b) = 
D‚t(k3,b) = {kı,ka}. Construeer een deterministische automaat die 
T(M) accepteert. 


. Construeer een DFSA die equivalent is met de NFSA in figuur 3.6. 
. Een homomorfisme 0 : Ty — T% is een totale functie met 0(£) = € en 


O(xy) = 0(x)0(y) voor alle x,y € Tj. Als Ti = {a,b},T> = {b,c} en 
O(a) = bc,0(b) = bb, bepaal dan #(ab) en #(ba). Laat zien dat als L een 
reguliere taal is en 0 is een willekeurig homomorfisme, dat dan 0(L) ook 
een reguliere taal is. 
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10. 


11. 


. Geef het formele bewijs van stelling 3.6. 
. Gebruik stelling 3.6 voor een alternatief bewijs van stelling 3.1a. 
. Beschrijf een eindige automaat die elk woord accepteert dat begint met 


‘on’ en eindigt met ‘k’. Gebruik deze FSA om een Pascal-programma 
te schrijven dat Nederlandse tekst inleest en telt hoeveel van dergelijke 
woorden erin voorkomen. 

Als iedere produktieregel in een grammatica G = (N,T, P, S) ofwel van 
de vorm A — Ba, ofwel van de vorm A — a is, met A,BE Nena€T, 
laat dan zien dat er een NFSA bestaat die L(G) accepteert. (Hint: de 
produktie A — Ba komt overeen met één kant in een graaf met label a 
vanuit een knoop B naar een knoop A.) 

Als iedere produktieregel in een grammatica G = (N,T, P, S) ofwel van 
de vorm A — zB, ofwel van de vorm A — z is, met A,B E N en z E 7", 
dan heet de grammatica rechtslineair. Omgekeerd, als alle regels de vorm 
A — Br of A — z hebben, dan heet de grammatica linkslineair. Toon 
aan dat L € T* wordt gegenereerd door een rechtslineaire grammatica 
dan en slechts dan als L regulier is en dan en 


Hoofdstuk 4 


Reguliere talen II 


In een tekening moeten geen onnodige lijnen staan 

en een machine moet geen onnodige onderdelen hebben. 
— WILLIAM STRUNCK JR. 

The Elements of Style 


4.1 Reguliere expressies 


Met behulp van reguliere expressies kunnen reguliere talen kort en bondig 
worden beschreven. De regels die reguliere expressies over T definiëren kunnen 
als volgt worden samengevat: 


(i) 0 stelt de lege verzameling voor en 1 stelt {e} voor; 
(ii) als L = [1,,22,..., tn) een eindige verzameling strings is met z; € T* 
voor i = 1,2,...,n, dan wordt L weergegeven door (2, + £2 +... + £n); 
(iii) als rı een reguliere expressie is voor een reguliere taal Lı en rz stelt een 
reguliere taal Lz voor dan geldt 


(rı + r2) is Lj U La, 
(rı . ra) is Li Lg, 
(ri) is L} (k > 0) 
(rj) is Lj; 


(iv) alleen de expressies gedefinieerd volgens (i), (ii) en (iii) zijn reguliere 
expressies. 


Haakjes kunnen in reguliere expressies worden weggelaten als men uitgaat van 
de regel dat unaire operatoren de hoogste prioriteit hebben, gevolgd door - en 
ten slotte +. Net als in de gewone algebra wordt voor (rı - r2) meestal (rj r>) 
geschreven. 

Elke eindige verzameling strings is een reguliere taal en reguliere talen zijn 
gesloten onder vereniging, verzamelingconcatenatie en Kleene afsluiting. Hier- 
uit volgt dat iedere reguliere expressie over T een reguliere taal in T* beschrijft. 
Bijvoorbeeld 
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a 
a b 
a 
b| |b 
: b 
a 
b 
(a) accepteert (a + b)*ba(ba)* (b)accepteert (a + ba*b)*b 


(c) accepteert (a + ba*b)* + b (d)accepteert (b* + a*)*ab + a 
= 1 + (a + ba*b)(a + ba*b)* +b =(b+a)*ab+a — 
= (b+ a)(b+a)*ab+ab+a 


Figuur 4.1 


(a + b)*ba(ba)* beschrijft {a,b}*{ba}{ba}* = {a, b}*{ba}+ 
(a + ba*b)* + b beschrijft (La) U {b} {a}*{b})* U {b}. 


Meestal is het vrij gemakkelijk een nondeterministische eindige automaat 
(NFSA) te construeren die de taal accepteert die wordt beschreven door een 
gegeven reguliere expressie. Het is daarbij ook vrij gemakkelijk om vergissingen 
te maken! Een paar technieken die je bij de constructie kunt gebruiken, worden 
geïllustreerd in figuur 4.1a-d. In de voorbeelden gebruiken we steeds R om de 
taal voor te stellen die hoort bij een reguliere expressie R. 

U hebt misschien al gezien dat we bij twee van de voorbeelden de expres- 
sie wat anders hebben opgeschreven om de constructie wat te vereenvoudigen. 
Hadden we dat niet gedaan dan was de kans groot geweest dat we in moeilijk- 
heden waren geraakt. Een algebra van reguliere expressies wordt beschreven 


REGULIERE TALEN Il - 4 51 


door de identiteiten in de regels (a) tot en met (p) en de beweringen (q) en 
(r) in de hierna volgende stelling 4.1. Met behulp van deze regels kan worden 
bewezen dat elk paar reguliere expressies dat dezelfde reguliere verzameling 
beschrijft, equivalent is. Dit bewijs is echter lang niet eenvoudig en later in dit 
hoofdstuk zullen we zien dat er een betere manier bestaat om de equivalentie 
van reguliere expressies te bewijzen. 


Stelling 4.1 


Als Q, R en S willekeurige reguliere expressies over T zijn dan geldt 


(a) Q4+Q=Q,Q+0=Q, 

(c) (Q+R)+S=Q+(R+S)=Q+R+S, 
(d) (QR)S = Q(RS) = QRS, 

(e) Q1=1Q=QenQ0=0Q=0, 

(£) (R+S)Q = RQ + SQ, 

(8) QAR+S)=QR+QS, 


(h) Q*Q* = Q", 
(i) (Q) =Q", 
(1) QQ* = Q*Q, 


(k) Q* =1+0Q+0Q?+...+Q%1Q* voor alle k > 0, 

ul sten =], 
(m) (Q* + R*)* (QR) = (Q+ RY, 

(n) (RQ)*R= R(QR)*, 

(0) (Q*R)*Q* = (Q + R)*, 

(pP) (Q*R)* =(Q+R)'R+1 en pe Dd Q(Q+ R)* +1, 
(q) Q = R*S impliceert Q = RQ + 

(r) als 1 ¢ R dan volgt uit Q = pg + S dat Q = R*S. 


Bewijs: 

De meeste beweringen liggen voor de hand als men voor + vereniging leest en 
voor - verzamelingconcatenatie. We zullen alleen de twee implicaties bewijzen 
om een idee te geven van de bewijsmethode 


(a) Q=R*S =(RR*+1)S [op grond van (b) en (k)] 
= RR*S+S [op grond van (e) en (£)] 
= RQ+S. 


(r) Q=RQ+S impliceert Q 
= R(RQ+S)+S 
= RIQ4+RS+S 
= R(RQ+5S)+RS+S 
=RQ+RS+RS+S 


= RQ + (RE +... + R+1)S voor alle k > 0. 
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Voor iedere x € Q is er een k > 0 zodat |z| < k. Omdat 1 € R geldt x € R*t!Q 
en dus moet ze (R*+...+R+1)S, en dus is z € R*S. Uit x € Q volgt dus 
dat x € R*S. Omgekeerd als x € R*S, dan is z € (Rë +... + R+1)S voor 
een k > 0. Uit ze R*S volgt dus z € Q. Dus moet Q = R*S. 


Elke reguliere expressie beschrijft een reguliere taal zoals we zagen. Het omge- 
keerde is ook waar. Dit wordt bewezen in de volgende stelling. 


Stelling 4.2: De stelling van Kleene. 


Elke reguliere taal in T* kan worden beschreven door een reguliere expressie 
over T. 


Bewijs: 

Stel L is een reguliere expressie. Dan geldt L = T(M) voor een of andere 
deterministische eindige automaat (DFSA), M = (K,T,t,ki, F). Stel dat K = 
thy, ka, End Als nu F = tkan Raas S Eam] dan is L = Li U La Heder LER 
Hierbij is L; een taal die wordt geaccepteerd door M = (K,T,t, kj, {ka }). 
Vereniging kunnen we als + weergeven in reguliere expressies, dus het enige dat 
we moeten bewijzen is dat elke L; kan worden weergegeven door een reguliere 
expressie. Dat wil zeggen dat we moeten aantonen dat de verzameling strings 
die wordt geaccepteerd door een willekeurige DFSA met een begintoestand 
en een eindtoestand, kan worden voorgesteld door middel van een reguliere 
expressie. 

Beschouw nu M = (K,T,t,ki, F) met een zodanige labelling van de toe- 
standen dat K = {k1, k2, ..., kn} en F = {kn}. Laat verder Ti; <7 sn, 0 < 
l < n) de taal voorstellen die bestaat uit alle strings x met t(k;, x) = k; en ook 
t(k;, y) € {km : m < l} voor alle geschikte prefixen y van z. (Elke string y € Tt 
met x = yv voor een v € T* is een geschikt prefix van z € T*.) We bewijzen 
door middel van inductie naar l dat Tj; altijd door een reguliere expressie kan 
worden voorgesteld. Als i # j dan is Tj} = 0, tenzij er één of meer kanten van 
knoop k; naar knoop k; lopen. In dit laatste geval is Ti; = 41 +42+...+4», 
waarbij aj, 42,...,ar de labels bij de kanten voorstellen. Als i = j dan is 
Tj = 1, tenzij er één of meer kanten van knoop k; naar knoop k; terugkeren. 
Dan is TS = 1 +a +a: +... +a. Als l= 0 is Tj; dus een reguliere expressie. 
Met behulp van de gelijkheid T} = Tij +T (Tir *)*T;7 * die geldt voor alle 
1 < l < n kunnen we nu eenvoudig met inductie aantonen dat Ti, steeds een 
reguliere expressie is. Omdat T(M) = TT, is hiermee de stelling bewezen. 

Mocht deze redenering nog niet duidelijk zijn, stelt u zich dan de gelabelde 
digraaf M voor en een willekeurige string x € T}. Er loopt een pad met 
label z van knoop k; naar knoop k; via knopen die als labels elementen uit 
{kı,ka,...,kı} hebben. Het pad loopt ofwel niet via knoop kı; in dat geval is 
ze Tir! ofwel het loopt wel via knoop k; en deze knoop wordt bijvoorbeeld 
m > 1 keer bezocht. We kunnen nu het pad van knoop k; naar knoop kj 
partitioneren in stap (0) vanuit knoop k; naar knoop k; bij het eerste bezoek, 
stap (1) van knoop kı terug naar knoop k; bij het tweede bezoek, ... stap (m-1) 
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van knoop k; terug naar knoop k; bij het m-de bezoek en stap (m) van knoop 
kı naar knoop k;. We mogen dus schrijven z = 2p11 ... 2m, waarbij z; het label 
bij het i-de gedeelte van het pad voorstelt. Nu is zo € T!r!,xı,...zm-ı € zj! 
en Xm € Tij *. Dus is x € Tir (Tij *)*Tij*. Het is nu gemakkelijk in te zien 
dat elke string in deze verzameling een element van Tj; is en hieruit volgt de 
gelijkheid. 


4.2 Minimalisatie 


Bij de constructie van een deterministische eindige automaat die een of andere 
taal L accepteert, is het prettig als we zo weinig mogelijk toestanden moeten 
onderscheiden. Zo’n DFSA heet een minimale DFSA en we zullen hier laten 
zien hoe je die kunt construeren. We zullen daarbij bewijzen dat deze minimale 
DFSA uniek is. 

Uit hoofdstuk 1 zult u zich herinneren dat een equivalentierelatie op A, A 
onderverdeelt in een aantal disjuncte equivalentieklassen. De equivalentieklasse 
die a € A bevat geven we aan door a. De index van de equivalentierelatie komt 
overeen met het aantal van deze equivalentieklassen. 

We richten nu onze aandacht op equivalentierelaties op T*. Zo’n equivalen- 
tierelatie R heet rechtsinvariant als 


xRy impliceert dat zzRyz voor alle z € T*. 
Stel L is een taal in T* en definieer de relatie geassocieerd met L, Ry door 
zRyzy desd als, voor alle z € T*, xz € L juist als yz € L. 


Rr is een equivalentierelatie want Ry is reflexief, symmetrisch en transitief. 

Als M = (K,T',t,k,, F) een DFSA is dan kunnen we ook een relatie Ry 
geassocieerd met M definiëren. Twee strings x,y € T* hebben relatie Ray dan 
en slechts dan als zij beide vanuit de begintoestand naar dezelfde toestand 
leiden, dus 


rRmy desd als t(k,, £) = t(k;, y). 


Ook dit is een equivalentierelatie en ook deze relatie is rechtsinvariant. We 
beperken ons vooralsnog tot DFSAs met totale overgangsfuncties. In dat geval 
verdeelt Ry T* in een aantal disjuncte equivalentieklassen. Iedere equivalen- 
tieklasse bestaat uit strings die naar een bepaalde toestand leiden vanuit de 
begintoestand. Een equivalentieklasse heeft dus een natuurlijk verband met 
een toestand in K. Omdat er #(K) toestanden zijn, zijn er ook #(K) equiva- 
lentieklassen en dus heeft Ry een eindige index. 

Omdat Ry rechtsinvariant is volgt uit zRyy dat xz Rmyz voor alle z € T*. 
Stel dat de taal L door M wordt geaccepteerd, dus L = T(M) dan geldt 
zzRmyz = t(kı,2z) =t(k1, yz) > t(k1, £z) € F desd t(k,,y2) EF > 2z € L 
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desd als yz € L. Hiermee hebben we aangetoond dat rRyy, X Rzy impli- 
ceert. Dit betekent dat elke equivalentieklasse gedefinieerd door Ry geheel 
binnen een equivalentieklasse gedefinieerd door Ry moet liggen. Ry partiti- 
oneert T* in een eindig aantal equivalentieklassen en dus heeft ook Ry een 
eindige index. ledere equivalentieklasse bevat een of meer equivalentieklassen 
van Ry en dus kunnen we met elke equivalentieklasse van Ry een deelverza- 
meling van toestanden van M verbinden. Deze deelverzamelingen verbonden 
met verschillende equivalentieklassen van Ry zijn onderling disjunct. Als k en 
k' twee toestanden in K zijn, verbonden met dezelfde equivalentieklasse van 
Rr, dan geldt t(k, z) € F voor alle z € T*, dan en slechts dan als t(k', z) € F. 
We noemen in dit geval k en k’ ononderscheidbaar. 

Bovenstaande redenering geldt voor iedere DFSA met een totale functie die 
L accepteert en dus moet zo’n DFSA minstens n toestanden hebben, waarbij 
n de index van Rz is. Als M = (K,T,t,kı,F) en als M’ = (K’,T,t', ki, F") 
twee DFSA’s zijn met n toestanden die beide L accepteren, dan kan precies 
één toestand van elke machine worden geassocieerd met iedere equivalentie- 
klasse van Rz. Dit leidt tot een bijectie 0 : K — K’, waarvan men eenvoudig 
kan aantonen dat 0(k) = 0(k') > O(t(k‚a)) = 0(t(k', a)), Va € T. Wegens het 
bestaan van deze bijectie geldt dat, behoudens de namen van de toestanden, 
elke DFSA met een totale overgangsfunctie die L accepteert en precies n toe- 
standen heeft, uniek is. Nu moeten we nog aantonen dat er minstens één zo’n 
automaat bestaat. 


Stel dat 21, Z2,...,Zn de equivalentieklassen zijn die door Ry zijn gedefi- 
nieerd. We kunnen dan een een DFSA, My construeren met inputalfabet T, 
met toestanden {Z,,Z2,...,Z,}, begintoestand £ en eindtoestandenverzame- 


ling F, waarbij z € F desd als x € L. We definiëren de overgangsfunctie door 
t(z,a) = za te stellen. Uit de rechtsinvariantie van Ry volgt dat xRLy impli- 
ceert dan zaRzya en dus is deze definitie consistent. Nu is £ € T(M) desd als 
t(€,2) = 2 € F desd als x € L en dus geldt T(M) = L. 


Hiermee hebben we de volgende stelling bewezen. 


Stelling 4.3: Stelling van Myhill-Nerode. 


Bij elke reguliere taal L bestaat een deterministische eindige automaat met 
een totale overgangsfunctie die L accepteert en waarvan het aantal toestanden 
gelijk is aan de index van Rz, de relatie die met L is geassocieerd. 


Iedere toestand in een DFSA die wordt geconstrueerd met behulp van de stel- 
ling van Myhill-Nerode, die niet op een pad ligt dat loopt van de begintoestand 
naar een eindtoestand kan geheel worden weggelaten samen met alle verbin- 
dingen met die toestand. De DFSA die dan overblijft noemen we de minimale 
DFSA, My die L accepteert. 

Zij M = (K,T,t,kı, F) een DFSA met een totale overgangsfunctie die de 
taal L accepteert. We beschrijven nu een algoritme dat de minimale machine 
My, direct uit L berekent. We moeten daartoe de toestanden van M in disjuncte 
deelverzamelingen van onderling ononderscheidbare toestanden verdelen. We 
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Figuur 4.2 


definiëren als volgt een rij relaties Do, Dı,... op de toestandsverzameling K: k 
is onderscheidbaar van k’ door een string met lengte 0, notatie k Dok’ , dan en 
_ Slechts dan als ofwel k € F en k’ ¢ F, ofwel k € F en k' € F. Voor i> 0 geldt 
kD;k’,k is onderscheidbaar van k’ door een string met lengte van hoogstens i 
desd als kD;_,k’ of als er een a € T bestaat zodanig dat t(k,a)D;_ıt(k’,a). 
Een toestand k is onderscheidbaar van een toestand k’, notatie kDk' desd als er 
een 2 > 0 bestaat met kD;k’. Met inductie toont men eenvoudig aan dat kD;k’ 
desd als er een string x met lengte < i bestaat zodanig dat ofwel t(k,1) € F 
en t(k’, x) ¢ F of t(k,x) ¢ F en t(k', 1) € F. Om D te berekenen, berekenen 
we nu de rij Do, D1, Do,.... Zodra D, = D, 1 weten we dat we klaar zijn en 
dat D, = D. Als m = #(K) dan bestaan er m? — m paren (k;, k;) met i £ j. 
In het slechtste geval verschilt iedere Di+1 van d; in precies twee van die paren 
en omdat we weten dat Do niet leeg is volgt dat D = D, voor r < (m? —m)/2. 


Als voorbeeld voor deze constructie gebruiken we de in figuur 4.2 getekende 
DFSA. Elke relatie D; geven we weer door een 5 x 5 Boole’se matrix, waar- 
van het element met index j,k de waarde T (Waar) heeft dan en slechts dan 
als toestand j door D; gerelateerd is aan toestand k. De relatie D; is altijd 
symmetrisch en de bewering kD;k geldt voor geen enkele k; we hoeven dus 
alleen het deel van de matrix boven de hoofddiagonaal weer te geven. In tabel 
4.1 staat de rij matrices die overeenkomt met Do, Dı = Do. Er geldt 1D12, 
omdat t(1,b)Dot(2, 6) en 2D,4 omdat t(2,5) Dot(4, b). De toestanden 1 en 4 en 
de toestanden 3 en 5 zijn dus ononderscheidbaar. 


Als de ononderscheidbare toestanden in een DFSA, M eenmaal zijn bepaald 
dan kan Mz gemakkelijk worden geconstrueerd. De toestanden van My bestaan 
uit verzamelingen onderling ononderscheidbare toestanden. Stel dat K’ C K 
zo’n verzameling voorstelt, dan definiëren we de overgangsfunctie tr, van My 
als tr(K',a) = K”. K" is de verzameling ononderscheidbare toestanden die 
t(k, a) bevat voor elke k € K’. De begintoestand van ML wordt gevormd 
door de verzameling ononderscheidbare toestanden die de begintoestand van 
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FTFT TTFT 
TFT „TTT 
TF FE 
F T 
Do D, 
Tabel 4.1 


_M bevat. De eindtoestanden van My worden gevormd door de verzamelingen 
ononderscheidbare toestanden die alleen eindtoestanden van M bevatten. Als 
we een en ander op ons voorbeeld toepassen dan krijgen we de minimale DFSA 
van figuur 4.3. In dit geval ligt elke knoop op een pad van begintoestand naar 
één der eindtoestanden, dus er hoeven geen knopen te worden verwijderd. 


Als we een minimale DFSA beschrijven dan labelen we de knooppunten 
meestal niet. De ongelabelde DFSA is de unieke minimale DFSA die de taal L 
accepteert. 

Heeft de oorspronkelijke DFSA een partiële overgangsfunctie dan voeren 
we een ‘dummy’-toestand A in en construeren we een equivalente DFSA met 
een totale functie. Als we vervolgens bovenstaande constructie toepassen op 
deze DFSA dan kan de verzameling ononderscheidbare toestanden vanuit A 
niet liggen op een pad. van een begintoestand naar een eindtoestand en dus 
komt niet voor in de minmale DFSA. 


Figuur 4.3 
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4.3 Algoritmen voor reguliere grammatica's 


Stel M is een willekeurige reguliere taal waarvoor we een minimale DFSA My 
hebben geconstrueerd met T(ML) = L. Veronderstel dat My als toestands- 
verzameling K = {kı,ka,...,kn} heeft met kı als begintoestand en beschouw 
z € L met lengte van minimaal n. Om door My geaccepteerd te worden moet 
t(ki,z) € F. Omdat |z| > n moet er een toestand k € K zijn met z = wry 
als |z| > 1 en t(k,,w) = k,t(k,z) = k en t(k,y) € F. Maar dan is ook 
t(k,, wz*y) € F voor i > 0 en dus geldt wz'y € L voor i > 0. Hiermee hebben 
we de volgende stelling bewezen. 


Stelling 4.4 


Als L een reguliere taal is en de string z € L heeft een lengte groter gelijk het 
aantal toestanden in My dan geldt z = wzy met |z| > 1 en waty € L voor 
‘> 0. 


Gevolg van deze stelling is dat uit het feit dat L niet leeg is volgt dat er een 
string z € L met lengte < n bestaat, waarbij n het aantal toestanden in My 
is. Een eenvoudig algoritme! om te testen of L(G) = @ of niet luidt als volgt: 
construeer de minimale DFSA Mz voor L = L(G). Als My n toestanden heeft 
dan is L = Ø desd als Mz geen enkele string in T* accepteert met lengte < n. 
Er bestaat slechts een eindig aantal van dergelijke strings en dus kan dit in een 
eindige tijd worden nagegaan. Hieruit volgen de volgende stellingen. 


Stelling 4.5 


Het leegheidsprobleem voor reguliere grammatica’s is oplosbaar. Dat wil zeg- 
gen: gegeven een reguliere grammatica G bestaat er een algoritme waarmee 
kan worden vastgesteld of L(G) leeg is of niet. 


Verder geldt: 
Stelling 4.6 


(a) Het equivalentieprobleem voor reguliere grammatica’s is oplosbaar. Ge- 
geven twee grammatica’s G; en Gz bestaat er een algoritme waarmee 
kan worden vastgesteld of L(G1) = L(G2) of niet. 

(b) Het eindigheidsprobleem voor reguliere grammatica’s is oplosbaar: gege- 
ven een reguliere grammatica G, bestaat er een algoritme dat bepaalt of 
L(G) al of niet eindig is. 


Bewijs: 
(a) L(G1) = L(G2) desd als de minimale DFSA’s geconstrueerd uit G} en 
G2, behoudens de naamgeving van hun toestanden, identiek zijn. 
l Een algoritme dat een gegeven probleem 7 oplost kan worden gedefinieerd als een pro- 


cedure die met elke verschijningsvorm van 7 als input altijd na eindige tijd de gewenste 
oplossing produceert. 
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(b) Ook hier is het bewijs gebaseerd op de minimale DFSA Mz, = 


(K,T,t,kı, F), geconstrueerd voor de acceptatie van L = L(G). Als 
My n toestanden heeft dan weten we op grond van stelling 4.4 dat L 


dan en slechts dan oneindig is als er een z € L met lengte van mini- 


maal n bestaat. Stel dergelijke strings bestaan en stel dat w van die 
strings de kleinste lengte heeft, d.w.z. als |w| > n en |z| > n, dan is 
|w| < |z|. We bewijzen nu dat |w| < 2n. Want stel dat dit niet zo was 
dan schrijven we w = wiwawz met 1 < |wa| < n en met t(kı,wı) = 
k t(k, w2) = k,t(k,w3) € F voor een k € K. Dus is t(k,,w,w3) € F 
en dus is wwz € L. Echter |wiw3| = |w| — |w2| > 2n —n = n en 
|wiw3| < |w| en dit leidt tot een tegenspraak. Ons algoritme bestaat 
dus uit niets anders dan uit het construeren van de minimale DFSA die 
L = L(G) accepteert. Als deze DFSA n toestanden heeft dan gaan we na 
of zij een string z accepteert met n < |z| < 2n. Het aantal van dergelijke 
strings is oneindig evenals L dan en slechts dan als minstens één zo’n 
string wordt geaccepteerd. 


Het is de lezer misschien al opgevallen dat de bewijzen van de stellingen 4.5 en 
4.6b niet afhangen van de voorwaarde dat de DFSA minimaal is. Elke DFSA 
met n toestanden kan worden gebruikt, maar bij een minimale DFSA is dit 
aantal zo klein als mogelijk is en dus moeten dan ook zo min mogelijks strings 
worden getest. We vatten nu het voorgande samen in de laatste stelling van 


‚dit hoofdstuk. 


Stelling 4.7 


Het leegheids-, equivalentie- en eindigheidsprobleem is oplosbaar voor deter- 
ministische (en nondeterministische) eindige automaten. 


4.4 Oefeningen 


1. 


Beschrijf deterministische eindige automaten die de volgende expressies 
accepteren. 


(a) a(ba + b)* +b, 
(b) (ab + b*)*ba +b, 
(c) ((b*a)*ab*)*. 


. Bepaal een reguliere expressie die T(M) beschrijft als M de automaat 


uit oefening 3.4 is. 


. Als Rı,..., Rn reguliere expressies over T zijn en f(Rı,...,Rn) is een 


functie die alleen de operatoren +,: en * gebruikt dan geldt 
(a) f(Ri,...,Rn)+(Rit...+ Rn)* = (Ri +... + Rn)’; 
(b) (FRI... Ra))* = (Ri +... + Rn)”. 

Bewijs dit. | 
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4. Gebruik stelling 4.4 om aan te tonen dat de volgende verz amelingen geen 

reguliere talen voorstellen: 
(a) {a"b"|n > 0), 
(b) {xa"|x € T*}. 

5. Bepaal een deterministische eindige automaat die de taal L beschreven 
door de expressie (ab)* + (a)(ba + a)* accepteert. Construeer vervolgens 
de minimale DFSA die L accepteert. Gebruik deze laatste automaat om 
een automaat te construeren die L = a,b*\L accepteert. Formuleer nu 
een reguliere expressie die L beschrijft. 

6. Zij Ry de relatie geassocieerd met een DFSA, M = (K,T, t, kı, F) zoda- 
nig dat T(M) = L. Stel verder dat Z en y twee verschillende equivalentie- 
klassen van Ry zijn. Bewijs dat als t(k,,x) = k en t(k,, y) = k’ dat dan 
zR;y geldt dan en slechts dan als k en k’ onderling ononderscheidbaar 
zijn. 

7. Bekijk nog eens de oplossingen van opgave 4.1 en ga na of en zo ja welke 

- DFSA’s die u construeerde minimaal zijn. 


Hoofdstuk 5 


Contextvrije Talen 


Om de vorm te tonen die het scheen te verbergen. 
—SIR WALTER SCOTT 
The Lord of the Isles 


In hoofdstuk 2 zagen we dat er twee equivalente definities van contextvrije 
grammatica’s bestaan. Ten eerste kunnen we een contextvrije grammatica 
(CFG) definiëren als een frasestructuurgrammatica (N,T, P, S) waarbij iedere 
produktieregel de vorm A — a heeft met A € N en a € (NUT)*. Op grond 
van deze definitie is een willekeurig aantal e-produkties in de grammatica toe- 
gelaten. Bij de tweede definitie, als e ¢ L(G) kunnen we de produktieregels 
in een CFG beperken tot A — a, A € Nena € (NUT), waarbij dus e- 
produkties vermeden worden. Als we ook e € L(G) willen toelaten dan kiezen 
we voor maar één e-produktie, S — e en eisen dat S$ niet voorkomt als een 
deelstring in het rechterlid van enig andere produktieregel. Meestal zullen we 
voor deze tweede definitiewijze kiezen omdat deze formele bewijzen vaak wat 
eenvoudiger maakt. 

Als een taal L wordt gegenereerd door een CFG dan heet L een context- 
vrije taal (Engels: Context-free Language of CFL). Elke reguliere grammatica 
is contextvrij en dus is elke reguliere taal een contextvrije taal. Er bestaan 
echter wel degelijk CFL’s die niet regulier zijn. Een eenvoudig voorbeeld is 
de niet-reguliere taal [a”b”|n > 1} die wordt gegenereerd door de CFG met 
produktieregels 


S — aSblab 


Zij G = (N,T,P, S) een willekeurige CFG en stel L(G) # QD. Bij elke we T+ 
die we door middel van G genereerden behoort een afleidingsboom. De diepte 
van een boom definieerden we eerder als het langste pad vanuit de wortel naar 
een blaadje. Als G; de volgende produktieregels heeft 


S— AB 
A —>aAla 
B —bB|b 


dan heeft de afleidingsboom voor a%b? € L(G) die in figuur 5.1 is weergegeven 
diepte vier. 
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Figuur 5.1 


Heeft de afleidingsboom voor een CFG, G = (N,T,P,S) diepte n dan 
moet er een pad bestaan met knooppunten A,,A»,...,An,a. Hierbij is S = 
A1,42,...,An EN ena ET. Is n > #(N) dan moeten twee of meer knopen 
op dit pad hetzelfde label hebben, bijvoorbeeld A; = A; en ¿< j. We kunnen 
nu een nieuwe afleidingsboom construeren door de boom met als wortel A; te 
vervangen door de boom met als wortel A;. Als we deze redenering herhaald 
toepassen dan volgt hieruit dat als er een afleidingsboom voor w € L(G) 
bestaat met diepte > #(N) dan moet er ook een afleidingsboom met diepte 
< #(N) bestaan voor een of andere w' € L(G). Hieruit volgt 


Stelling 5.1 


Het leegheidsprobleem voor contextvrije grammatica’s is oplosbaar. Dit wil 
zeggen dat er voor elke CFG, G = (N,T, P, S) een algoritme bestaat waarmee 
kan worden vastgesteld of al dan niet geldt dat L(G) = @. 


Bewijs: 

Het algoritme bestaat er eenvoudig uit dat we testen of S — £ een produk- 
tieregel in P is. Als dit zo is dan is L(G) # ® omdat immers e € L(G). Als 
dit niet het geval is dan construeren we alle mogelijke afleidingsbomen, maar 
slechts tot diepte #(N). Hiervan bestaat een eindig aantal en geen van deze 
bomen komt overeen met een afleiding van een terminale string dan en slechts 


dan als L(G) = Ø. 


Een produktie A — a in een CFG G = (N,T,P,S) heet relevant dan en 
slechts dan als er een afleiding voor een x € L(G) bestaat die die produktie- 
regel gebruikt, d.w.z. desd als S > aı Ang > aıaaa > x voor een z € L(G). 
Als een produktieregel in G niet relevant is heet deze irrelevant en we zou- 
den hem graag willen verwijderen. Voor iedere A € N kunnen we een nieuwe 
grammatica Ga = (N,T,P, A) construeren. Als L(G4) de lege verzameling 
is dan kunnen we geen terminale string vanuit A genereren met behulp van 
produkties uit P. Dit betekent dat we uit geen enkele zinsvorm uit G die A 
bevat een terminale string kunnen afleiden. L(G) blijft dus onveranderd als we 
alle produktieregels uit G verwijderen die A ofwel in het linker- ofwel in het 
rechterlid hebben staan. Er kunnen nu nog enkele irrelevante produktieregels 
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over zijn in de grammatica omdat er regels A € N kunnen voorkomen die 
terminale strings kunnen genereren, maar die nooit in een zinsvorm kunnen 
voorkomen. Op overeenkomstige wijze als in stelling 5.1 kunnen we bewijzen 
dat als A in een zinsvorm kan voorkomen dat er dan een zinsvorm bestaat die 
A bevat en die kan worden afgeleid met behulp van een partiele afleidingsboom 
met diepte < #(N). (De boom heet een partiële afleidingsboom omdat zijn 
blaadjes geen terminalen zijn.) Door al dergelijke bomen te genereren kunnen 
we nagaan of er een A € N bestaat die niet in een zinsvorm kan voorkomen. 
Als dit het geval is dan kan elke produktieregel waar A in voorkomt als zijnde 
irrelevant worden verwijderd. Van nu af zullen we dan ook veronderstellen dan 
alle produktieregels in een contextvrije grammatica relevant zijn. 


5.1 De normaalvorm van Chomsky 


De vorm van produktieregels in CFG’s is nogal vrij en deze vrijheid maakt 
bewijzen van eigenschappen van CFG’s erg moeilijk. Gelukkig kunnen we aan 
de regels vrij strenge beperkingen opleggen terwijl de zeggingskracht van de 
grammatica toch behouden blijft. 


Stelling 5.2: De Normaalvorm van Chomsky 


Elke e-vrije CFL kan worden gegenereerd door een CFG in de Normaalvorm 
van Chomsky. 
Deze CFG heeft de volgende produktieregels 


A — BC,A BCe N 
of 
A—>a, AEN, aET 


Bewijs: 

Als L C T* een e-vrije CFL is dan mogen we aannemen dat L wordt gege- 
` nereerd door een CFG, G = (N,T, P, S} zonder e-produkties. Een equivalente 
CFG in de normaalvorm van Chomsky (met dus alleen produktieregels van de 
vorm die in de stelling wordt omschreven), kunnen we uit G construeren met 
behulp van het volgende algoritme. 

Stap 1: (Vervang alle produkties van de vorm A — B met A,B € N; 
we noemen dit soort produktieregels eenheidsproduktieregels.) Geef voor elke 
A E N de verzameling van eenheidsproduktieregels met A in het linkerlid aan 
door U(A) en geef de verzameling van niet-eenheidsproduktieregels met A in 
het rechterlid aan door N(A). Vervang voor iedere A € N waarvoor U(A) niet 


leeg is U(A) door {A — al A > B en B > a in N(B)). 
Stap 2: (Vervang alle produkties met als rechterleden strings met lengte > 1 


en met terminalen als substrings. Dergelijke produktieregels heten secundaire 
produktieregels.) Introduceer voor iedere a € T die in het rechterlid voorkomt 
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van een secundaire produktieregel een nieuwe nonterminaal A, samen met een 
nieuwe produktieregel Ag — a. Elke secundaire produktieregel van de vorm 
A — X1X2...XAm,X¡ € NUT wordt nu vervangen door een produktieregel 
A—YıYa...Ym met Y; = X; als X; € N; anders is X; = a voor een a € T en 
Y; = Xa. De vermeerderde verzameling van nonterminalen geven we aan door 
N’. 

Stap 3: (Vervang alle produktieregels met als rechterleden strings van meer 
dan twee nonterminalen. Deze regels heten tertiaire produktieregels.) Elke ter- 
tiaire produktie van de vorm A — BıBa...Bm,m > 2,Bı,Ba,...,Bm € 
N’ wordt vervangen door produkties A — Bi Bi, Bi, — B2B5,..., Bh-1 > 
Bm-1 Bm. B;¡,..., Bi-j zijn nonterminalen die niet in andere produktieregels 
mogen voorkomen. 

Een grammatica die met behulp van de bovenstaande stappen uit G wordt 
geconstrueerd is equivalent met G en is in de normaalvorm van Chomsky. 
Beschouw bijwijze van voorbeeld de CFG G2 met als produktieregels 


S — A|ABA 
A — aAlalB 
B —bB|b 


Stap 1: U(S) omvat S — A,U(A) omvat A — B en U(B) is leeg. Omdat 
S Š Aen S $ B vervangen we S — A door S — aAlalbB|b en omdat AS B 
vervangen we A — B door A — bB|b. De equivalente grammatica heeft dan 
de volgende produktieregels 
S —aAlalbB|b|ABA 
A — aAlalbB|b 
B —bB|b 


Stap 2: aen b staan beiden in een rechterlid van een secundaire produktie. 
We introduceren daarom twee nieuwe nonterminalen A, en A; te zamen met 
de produktieregels A, — a en Ay — b. We herschrijven de secudaire produk- 
tieregels en krijgen zo de volgende serie equivalente produktieregels 

S — A Ala] A, B|b|ABA 
A — Aj Alal A, B|b 
B — A, Blb 

A —a 

A, —b 

Stap 3: De enige tertiaire produktieregel is S — ABA. Deze wordt vervan- 
gen door de volgende twee regels 

S—AB' 
B'— BA 
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Figuur 5.2 


en zo krijgen we de uiteindelijke contextvrije grammatica in de normaalvorm 
van Chomsky. 


Stel L C T* is een willekeurige contextvrije taal en L\{e} wordt gegenereerd 
door een contextvrije grammatica G in de normaalvorm van Chomsky. Als 
r € L(G) een afleidingsboom met diepte m heeft dan is eenvoudig aan te 
tonen dat |z| < 2”””!. Dit volgt uit het feit dat elke ouder in de boom hoogstens 
twee kinderen kan hebben, terwijl ouders van blaadjes er maar een hebben. In 
figuur 5.2 hebben we een afleidingsboom met diepte 3 van maximale omvang 


getekend. 
We bewijzen nu de volgende stelling. 


Stelling 5.3 


Als L een contextvrije taal is dan bestaan er gehele getallen l} en l2 zodanig 
dat voor elke z € L met |z| > 1,,z geschreven kan worden als z = uvwzy, 
waarbij 


(i) lvwel < lo, 
(ii) ve Æ e€, en N 
(iii) voor elk geheel getal i > 0 geldt uv'wxz'y € L. 


Bewijs: 

Stel L\{e} wordt gegenereerd door een grammatica G = (N,T, P, S) in nor- 
maalvorm van Chomsky. Zij n = #(N), lı = 277! en ls = 2”. Stel verder z € L 
met |z| > 2771, Elke afleidingsboom voor z moet nu een langste pad P hebben 
met lengte groter dan n. Er zitten dan meer dan n+ 1 knopen in P, waarvan 
er een terminaal is. Dit betekent dat er twee knopen N, en N, in P moeten 
zitten, die beide zijn gelabeld met hetzelfde nonterminale symbool. Stel N] is 
de knoop het dichtst bij de wortel. Er kunnen meer dergelijke paren in P zitten, 
maar we kiezen het paar met Nı op de grootste diepte in de boom. In dat geval 
vormen N; en Na het enige paar met identiek label op het pad vanuit Nı naar 
het eindpunt. De lengte van dit pad is hoogstens n +1. Stel N; en No hebben 
beide label A. Omdat P het langste pad is in de afleidingsboom, is het pad 
vanuit N, ook het langste pad vanuit de subboom met wortel N,. De diepte 
van deze subboom is hoogstens n + 1 en moet dus een afleiding representeren 
van een terminale string vanuit A met een lengte van hoogstens 2”. Noem deze 
string 21. We hebben aangetoond dat |zı| < 2” en dat A > z,. Als Th de sub- 


66 5 - CONTEXTVRIJE TALEN 


Figuur 5.3 


boom met wortel N3 is en w is de terminale string die uit deze subboom wordt 
afgeleid dan kunnen we zj = vwz schrijven, waarbij v en z niet beide € kunnen 
zijn. Immers de eerste produktieregel gebruikt in de afleiding van zı moet de 
vorm A — BC hebben voor een B,C € N en e-produkties zijn niet toegelaten. 
Nu is z; een substring van z en dus kunnen we schrijven z = uzıy = uvwzy. We 
hebben hiermee aangetoond dat er een afleiding S > uAy > uvAzy > uvwry 
bestaat met |vw2z| < lo. Omdat A > vAr > vwz geldt A => viwz' voor iedere 
i> 0. Dus S > uAy > uviwz'y is een toegelaten afleiding in G voor iedere 
i > 0. In figuur 5.3 is dit nog eens geïllustreerd. 

We gebruiken ter illustratie van deze stelling de grammatica G3 met produk- 
tieregels 


S — AS|AB 
A — BS|a 
B — AA|b 


In dit geval is 1; = 4; we beschouwen daarom de afleidingsboom voor a®b? 
in figuur 5.4a. In de boom is een pad P met maximale lengte aangegeven. In 
dit pad zitten vier nonterminale knopen. Minstens twee moeten dus hetzelfde 
label hebben; bijvoorbeeld de twee knopen met label A. Noem nu N} de knoop 
A het dichtst bij de wortel en noem de andere Nz. De boom 7; met N, als 
wortel geeft de afleiding A > a%b en dit is de string zı uit de stelling. Th is 
de boom met wortel Na en met afleiding A > a. Dus zj = vwz met v = a, 
w = a, xz = ab en z = uvwzy, waarbij u = e en y = b. Volgens de stelling 
geldt voor elke gehele i > 0 dat uviwz*y € L. In de figuren 5.4b en 5.4.c zijn 
de afleidingsbomen voor i = 0 en i = 2 getekend. Figuur 5.4b wordt uit 5.4a 
geconstrueeerd door 7} door Tz te vervangen en 5.4c volgt uit 5.4a door het 
vervangen van T> door T}. 


Stelling 5.3 is vooral bruikbaar als je wilt bewijzen dat een bepaalde taal 
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Figuur 5.4 


niet contextvrij is. Neem bijvoorbeeld eens de taal L = {a?|p is een priemgetal}. 
Als L contextvrij was dan zou uit stelling 5.3 volgen dat p is priem > p+ 2ki 
is priem voor een k met 0 < k < pen alle i > 0. Dit is niet waar en dus is L 
niet contextvrij. 


Stel G is een willekeurige contextvrije grammatica in de normaalvorm van 
Chomsky. Als we aannemen dat G n nonterminalen bevat en als I; = 2"7! 
en l2 = 2”, dan geldt wegens stelling 5.3 dat L(G) oneindig is dan en slechts 
dan als L(G) een string met lengte > lı bevat. Als we ervan uitgaan dat L(G) 
oneindig is, stel dan dat z de kortste string in L(G) is met lengte > l4. Door 
een tegenspraak af te leiden zullen we bewijzen dat lı < |z| < lı + lo. Immers, 
stel dat |z| > lı + l2 terwijl er geen kortere string in L bestaat met lengte > l4, 
dan geldt op grond van stelling 5.3 dat z = uvwzy en uwy € L is een string 
met lengte |z| — l2 > lı, maar |uwy| < |z| en dit is de gezochte tegenspraak. 


We bewezen dus dat L(G) oneindig is dan en slechts dan als er een z € L(G) 
bestaat met lı < |z| < 1, + l2. Er bestaat maar een eindig aantal strings € T* 
die aan deze lengtebeperking voldoen. Door alle zinsvormen van G met lengte 
k,l, < k < lı + l2 te genereren kunnen we nagaan of er terminale strings in 
L(G) bij zijn. We hebben zo dus een algoritme verkregen dat test of L(G) 
eindig is of niet. Met andere woorden we bewezen 


68 5 - CONTEXTVRIJE TALEN 


Stelling 5.4 


Het eindigheidsprobleem is oplosbaar voor contextvrije grammatica’s. Dat wil 
zeggen er bestaat een algoritme om te bepalen of een CFG een eindige of een 
oneindige taal genereert. 


5.2 De normaalvorm van Greibach 


Toen we in hoofdstuk 3 reguliere grammatica’s behandelden vonden we ge- 
lukkig een heel efficiënte methode waarmee de vraag ‘is x € T* een element 
van L(G)?’ kan worden beantwoord. Dit probleem heet het elementprobleem 
(Engels: membership problem). Duidelijk is dat dit probleem ook voor con- 
textvrije grammatica’s oplosbaar is; we hoeven immers alleen maar alle zinnen 
uit G met lengte |z| te genereren. Als geen van die zinnen met een afleiding 
van x overeenkomt dan is x ¢ L(G) en anders is x € L(G). Dit is geen erg 
efficiënte manier om het probleem op te lossen en we zullen een groot deel van 
het vervolg van dit hoofdstuk wijden aan het zoeken naar betere methoden. Bij 
het compileren van een programmatekst is het construeren van een afleidings- 
boom van belang. Daarom zijn we ook in de volgende vraag geinteresseerd: 
‘is x € T* een element van L(G), en zo ja, wat is de bijbehorende afleidings- 
boom?’. Dit probleem noemen we het afleidingsprobleem, (Engels: derivation 
problem). Als we hiervoor een efficiént algoritme kunnen vinden dan hebben 
we meteen het elementprobleem opgelost, maar tot nu toe weten we alleen 
maar dat het probleem inderdaad oplosbaar is. 

In de praktijk blijkt het afleidingsprobleem alleen efficient oplosbaar als 
we bepaalde restricties aan de CFG opleggen. Afhankelijk van de aard van de 
restricties zijn verschillende algoritmen ontwikkeld voor het oplossen van het 
afleidingsprobleem. Helaas zijn die restricties zodanig dat niet alle contextvrije 
talen eraan voldoen. In de hoofdstukken 6, 7 en 8 gaan wij hier nader op in. Ter 
voorbereiding is het van belang dat u leert produktieregels te transformeren 
zonder dat hierdoor de gegenereerde taal verandert. Ook bij de behandeling 
van de normaalvorm van Chomsky maakten we hiervan al gebruik. 

De eerste transformatietechniek is heel eenvoudig en wordt samengevat in 
de volgende stelling waarvan het bewijs aan de lezer wordt overgelaten. 


Stelling 5.5 


Als A — a;Bap een produktieregel in een contextvrije grammatica G is en 
B — P,|Bo|...|8, zijn alle mogelijke produktieregels met B in het linkerlid 
dan kan A — a; Baz vervangen worden door A — a1(31a2|a182a2|...|a18,a2 
zonder dat de taal L(G) hierdoor verandert. 


De volgende stelling ligt misschien niet zo voor de hand en we geven daarom 
een aanwijzing voor het bewijs. De stelling heeft betrekking op het verwijderen 
van zogenaamde links-recursieve produktieregels, d.w.z. produktieregels van de 
vorm A — Aa, AE N,aE€ (N UT)* uit een contextvrije grammatica. 
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Stelling 5.6 


Als in een CFG, A — Aay|Aag|...|Aam alle mogelijke links-recursieve pro- 
duktieregels zijn met A in het linkerlid en A — (,|Go|...|@, zijn de overige 
produktieregels met A in het linkerlid, dan kan een equivalente grammatica 
worden geconstrueerd door een nieuwe nonterminaal A’ in te voeren en de 
genoemde produktieregels te vervangen door 


A — 81162]... |@n [61 41824"... [Bn A’ 


A—ailaal.… |am|aı A’|@2A’|... mA’ 


Aanwijzing voor het bewijs: in beide gevallen is de verzameling strings die uit 
A kan worden afgeleid met behulp van één of meer van de produktieregels 
gelijk aan (81, B2,...,Pnj[a1,%,... Am)". 


Ter illustratie van het gebruik van beide stellingen converteren we de produktie- 
regels van G3 in produkties van de vorm A + aa,A E N,a€T,a E (NUTY. 
Als alle produktieregels van een contextvrije grammatica deze vorm hebben 
dan heeft de grammatica de normaalvorm van Greibach. Het is bij elke e-vrije 
CFL L mogelijk een CFG in de normaalvorm van Greibach te construeren 
die de taal L genereert. De algemene constructiewijze verloopt zoals in het nu 
volgende voorbeeld. 

Eerst geven we andere namen aan de nonterminalen van G3; we noemen S 
A1, we gebruiken Az in plaats van A en Az voor B. De grammatica heeft dan 
de volgende produktieregels 


A; — A2A1/4243 
Ao > A3A la 
Az — A2 Aa[b 


Vervolgens zorgen we ervoor dat alle produkties van de vorm A; — Aja vol- 
doen aan j > i. In dit voorbeeld voldoet maar één produktieregel hier niet 
aan, namelijk Az — A242. Door stelling 5.5 toe te passen, vervangen we deze 
regel door 


A3 > A3 Aj Aja Az 


Dit is een links-recursieve produktieregel en we gebruiken nu stelling 5.6 om 
deze te verwijderen. De nieuwe verzameling regels luidt nu 

A; — A2A;|A2A3 

Ao ap A3 Ai la 

A3 — a Az|bla A243|b A3 

A3 cid A1 Aal A1 A2 A5. 


Alle regels met Ag in het linkerlid hebben nu de vereiste vorm. Ag — A3 Ai 
kan met behulp van stelling 5.5 worden herschreven en dit geldt ook voor 
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A; — A2 A;lA2 A3. Nu hebben alle regels met Aı, Aa of Az in het linkerlid de 
gewenste vorm. We krijgen 
A; —aA2 A; A1 |bA, A7 |a A2 A3 A1 A1 |bA3 Ai Aı la Aa 
| |aA2 Aj A3lb A; Az|a A2 A3 Ai A3|b AZ A1 A3 |aA3 
Az —aA2 Aj |b A1 |a A243 A1 |bA3 Ai |a 
Az > aAz|ba AzA |bA} 
Az — A1 A2| A142453 
Tenslotte kunnen we nog de produktieregels met A‘ in het linkerlid herschrijven 
door stelling 5.5 toe te passen. We krijgen dan 
Az — aA2 Ai A1 A2]bA1 A¡ Aga A2 A3 Ai A1 A2|b AZ Ai A1 Aa|aAı Az 
|aA2 A1 A3A2|b Aı A3 A2|a Aa A3 A ı A3 A2lbA3 Aı A3 A2|a A3 Aa 
\aA2Aı Aı A2 Az |bAı A1 A245 |aA2 A5 A, A1 A2A% 
[6434141 A2 43]a A, A2A3]aA2 Aı Aa Aa AZ [DA A342453 
|aA2 4341 A3 A2 A3|b AZ Aj Az Aa Ar |a Az A2 AZ 


Deze grammatica in de normaalvorm van Greibach heeft dus negenendertig 
produktieregels! We moeten nu nog nagaan of de constructie die we in dit voor- 
beeld gebruikten ook in het algemeen werkt. We beschrijven eerst de stappen 
die we uitvoerden en vervolgens bewijzen we dat zij altijd tot een 1 grammatica 
in de normaalvorm van Greibach leiden. 

Stap 1: Zij G een willekeurige e-vrije grammatica. Converteer G in een 
equivalente grammatica G’ in de normaalvorm van Chomsky. 

Stap 2: Noem de nonterminale symbolen in G’, A1, A2, ..:, Am(m > 1), 
waarbij A; het beginsymbool voorstelt. Zij verder N = {A1ı,Aa,..., Am}. 

Stap 3: Pas het volgende algoritme toe om alle produktieregels in G’ met 
A; in het linkerlid te converteren naar ofwel de vorm A; — aa,a € T ofwel de 
vorm A; — Aja met j > i. 


begin 
var i: integer; 
t 0; 
while i <> m do 
begin 
i:=i+ l1; 
while er een produktie A; — A;,j < i bestaat do 
vervang A; volgens stelling 5.5; 
if er links-recursieve produkties bestaan met A; 
in het linkerlid 
then voer een nieuwe nonterminaal A; in 
en gebruik stelling 5.6 om ze door een equivalente 
reeks produktieregels te vervangen 
end 


end. 
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Stap 4: Stel N’ is de verzameling van nieuwe nonterminale symbolen die we 
in stap 3 introduceerden. Na stap 3 hebben dan alle regels van de grammatica 
de vorm A; — Aja,j > i en a € (NUN'UT)* of Ai — Xa, X €(NUT),a€ 
(NUN’UT)*. Gebruik nu het volgende algoritme om alle regels met de eerste 
vorm te vervangen: 


begin 

var 1: integer; 
Es e 

while i <> 1 do 


i :=i-— l; 
while er een regel van de vorm A; — A;‚j > i bestaat do 
vervang A; volgens stelling 5.5 
end 
end. 


Stap 5: Verwijder nu regels van de vorm A! — Aja door A; met behulp 
van stelling 5.5 te vervangen. De grammatica heeft nu de gewenste vorm. 


Duidelijk is dat na stap 2 de grammatica L(G) zal genereren als we A, als 
startsymbool gebruiken. Om aan te tonen dat stap 3 inderdaad zijn doel be- 
reikt, bewijzen we met inductie dat het algoritme na i iteraties alle produkties 
met A;,k < 1 in het linkerlid heeft aangepast. Na 0 iteraties geldt de bewering 
in ieder geval. Stel nu dat de bewering waar is voor i < n en beschouw de n-de 
iteratie. Als er produktieregels van de vorm A, > Aja zijn met j < n dan ge- 
bruiken we stelling 5.5 om A; te vervangen door de rechterleden van produkties 
met A; in het linkerlid. Omdat j < n geldt wegens de inductieveronderstelling 
dat deze rechterleden ofwel met een terminaal symbool, ofwel met Aak > 9 
beginnen. Elke regel van het eerste type is acceptabel en alleen als er regels 
van het tweede type voorkomen met k < n dan wordt de binnenste lus van 
het algoritme gebruikt. Maximaal zijn er n — 1 iteraties van de binnenste lus 
mogelijk en hierna hebben alle regels met A, in het linkerlid rechterleden die 
beginnen met ofwel een terminaal symbool, ofwel met een nonterminaal sym- 
bool A; met k > n. Alle links-recursieve regels met A, in het linkerlid zijn nu 
vervangen en dus geldt de inductieveronderstelling ook voor i = n. Hiermee 
is bewezen dat het algoritme uit stap 3 zijn doel bereikt. Het stopt als i = m 
en dat hebben alle produktieregels de gewenste vorm. Als we nagaan hoe stel- 
ling 5.5 in stap 3 wordt gebruikt dan is in te zien dat de rechterleden van alle 
produktieregels waarin een nonterminaal symbool werd ingevoerd in het lin- 
kerlid moeten beginnen met een element uit N UT. De bewering in het begin 
van stap 4 kan dus worden bevestigd. Met name geldt dat het rechterlid van 
een regel met A,, in het linkerlid moet beginnen met een terminaal symbool. 
Elke regel met Am-ı in het linkerlid begint of met een terminaal symbool, of 
met Am. Voorkomens van produktieregels van het type Am—-1 — Ama kunnen 
worden verwijderd door stelling 5.5 weer te gebruiken. Nu hebben alle regels 
met Am of Am-1 in het linkerlid een rechterlid dat met een terminaal symbool 
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begint. Dit proces herhalen we totdat alle regels met Am, Am-1,---,A2,A1 
als linkerleden, rechterleden hebben die met een terminaal symbool beginnen. 
Weer met volledige inductie kunnen we formeel bewijzen dat deze situatie na 
n iteraties van de lus in stap 4 is bereikt. Ook stap 4 bereikt dus het gewenste 
resultaat omdat het algoritme na m — 1 iteraties eindigt. De juistheid van stap 
5 is triviaal en dus geldt de gehele constructie. Hiermee hebben wij de volgende 
stelling bewezen. 


Stelling 5.7: De normaalvorm van Greibach 


Bij iedere e-vrije contextvrije taal L bestaat er een contextvrije grammatica G 
in de normaalvorm van Greibach, zodanig dat L = L(G). 


5.3 Contextvrije talen als oplossingen van vergelijkingen 


We bekijken opnieuw de contextvrije grammatica met produktieregels 


S— AB 
A—aAla 
B —bB|b. 


Aan elk nonterminaal symbool in deze grammatica kunnen we een verzameling 
terminale strings verbinden die eruit kunnen worden afgeleid. Aan A wijzen we 
de verzameling {a”|N > 1} toe, aan B de verzameling {b”|n > 1} en aan S de 
verzameling {a”b"|m,n > 1}. In deze paragraaf gebruiken we het nonterminale 
symbool zelf om de bijbehorende verzameling aan te geven en we schrijven dus 
A = {a"|n > 1}, B = {b"|n > 1} en S = [a”b”|m, n > 1}. Op grond van de 
produktieregels van de grammatica weten we dat de verzamelingen S, A en B 
aan het volgende stelsel vergelijkingen moeten voldoen 


$= AG 
A= {a}AU {a} 
B={b}Bu {b} 


Dit stelsel heeft een oneindig aantal mogelijke oplossingen. Hoewel bijvoorbeeld 
een oplossing van 


A= AU {a} 


{a} is, is elke verzameling die a bevat ook een oplossing. Deze andere oplos- 
singen liggen niet direct voor de hand als oplossing voor de vergelijking. We 
zullen in het hierna volgende een unieke ‘kleinste’ oplossing toekennen aan elk 
systeem van vergelijkingen. 

Ga uit van het volgende stelsel 
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X1 EIA id) 
Xo = fo(X1, X2,. 7; Kn) 


Xn = fal Xi, Xz. .. An) 


Ieder van de functies f;(X 1, Xo,..., Xn) wordt geconstrueerd uit eindige ver- 
zamelingen strings in T* en tussen de variabelen X1, X2,...,X, worden alleen 
vereniging en concatenatie als operaties gebruikt. Een dergelijk stelsel noemen 
we een stelsel van verzamelingvergelijkingen over T*. We schrijven X voor het 
n-tupel (X1, X2,..., Xn) en we schrijven het stelsel als 


X = f(X). 


Elk n-tupel verzamelingen in T*, S = (S1, S2,...,Sn) dat voldoet aan S = 
f(S) is een oplossing voor X = f(X). Als T = (T1,T2,...,T,), dan schrijven 
we SC T desd als S; C 71,93 C Ta,...,Sn E Tr. De volgende stelling zegt 
dat elk stelsel verzamelingvergelijkingen over T* een unieke ‘kleinste’ oplossing 
heeft. 


Stelling 5.8 
Het stelsel X = f(X) heeft een oplossing 


s=(JF@) 
1 


en als T enige andere oplossing is dan geldt SCT. 


Bewijs (schets): 

D stelt het n-tupel (®,®,...,®) voor en dus geldt per definitie dat Dc f(D). 
Op grond van oefening 1.11 kan gemakkelijk worden bewezen dat uit A C B 
volgt dat f(A) C f(B). Dus geldt f(D) C f(f(®)) = f?(®), enzovoort. De 
rij Ø C f(D) c f(D) C … is niet-dalend. Als nu 


oo 
s=|)f(®) 

=} 
de limiet van de rij voorstelt dan kan men bewijzen dat f(S) = S en dus is S 
een oplossing van het stelsel. 

Als T een andere oplossing is dan geldt T = f(T). Per definitie is Ø C T 

en dus is f(D) C f(T) = T. Op deze wijze kan men uiteindelijk aantonen dat 
f'(D) C T voor alle i > 0 en dus 


U F(D) CT, dwz. SCT 


f=] 
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Bij iedere contextvrije grammatica G = (N,T, P, S) behoort een systeem van 
verzamelingvergelijkingen over T* en ook het omgekeerde is het geval. Als 
S = (S1,S2,...,Sn) de unieke kleinste oplossing is van dit stelsel en als de 
eerste vergelijking overeenkomt met de produktieregels in P met S in het 
linkerlid dan geldt L(G) = S,. We passen dit eens toe op het volgende stelsel 


S=AB = f,(S, A,B) 
A= {a}AU {a} = f2(S, A, B) 
B={b}BU {b} = fa(S, A, B). 
f(D) 7 (fi(D), f2(D), fa(D)) zr (D, {a}, {b}), 
f?(D) y (AO, {a}, {b}), f(D, {a}, {b}), fa(D, {a}, {b})) 
= ({ab}, (a, aa}, {b,bb}), 


en 


f(D) = F({ab}, {a, aa}, {0,60}) 
= ({ab, aab, abb, aabb}, {a, aa, aaa}, {b, bb, bbb}). 


Met inductie kan men aantonen dat 
f(D) = ({a™b" |i > m,n > 1}, {a™ |i > m > 1}, {b" |i > n > 1)) 


en dus geldt voor de limiet 


oo 
U FO) = ({an"|m,n > 1}, {a™|m > 1}, {|n > 1)). 
isi 

Hieruit volgt dat L(G) = {a™b"|m,n > 1}. 

Het formuleren van contextvrije talen als oplossingen van een stelsel van 
verzamelingvergelijkingen leidt vaak tot een beter begrip van de taal. Ook geldt 
dat na een eindig aantal stappen in de rij Ø C f(Ø) C ... alle strings op L(G) 
van gegeven lengte zijn bepaald. Het elementprobleem kan dus op deze wijze 
worden opgelost. 


5.4 Oefeningen 


1. Beschrijf een algoritme dat gegeven een willekeurige contextvrije gram- 
matica G en een geheel getal k > 0 alle afleidingsbomen voor G met 
diepte k genereert. 

2. Als L een contextvrije taal is bewijs dan dat de Kleene insluiting van 
L, L* en de omkering van L, L" = {x"|x € L} ook contextvrije talen zijn. 

3. Als Lı en La CFL’s zijn dan geldt dit ook voor Lı U Lz en Lj La. 
Bewijs dit. 

4. Construeer een contextvrije grammatica in de normaalvorm van Choms- 

= ky die rekenkundige expressies over {a,b,c} genereert. 
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5. 


10. 


31, 


12. 


Welke van de volgende verzamelingen zijn contextvrije talen en welke 
zijn dat niet? | 

(a) {ab Ho < i< j< k}, 

(b) {a'b c*]0 <= j = k}, 

(c) {a WHO <= j,0 < k en i £ k}, 

(d) {aibick|0 <= j, 0 < k}. 


. Als L C TY een CFL is en $ : Tf — T% is een homomorfisme dan is ook 


¢(L) een CFL. Toon dit aan. 


. Formuleer de formele bewijzen van de stellingen 5.5 en 5.6. 
. Formuleer en bewijs een stelling analoog aan stelling 5.6 die kan worden 


gebruikt om alle rechts-recursieve produkties uit een CFG te verwijderen. 
(Dit zijn produktieregels van de vorm A — aA, A E€ N,a E (N UT)a). 


. Gegeven is een grammatica met als produktieregels 


A; — A2 A3 
A2 — A3 Alb 
Az — A¡ Azla 


Converteer deze grammatica naar de normaalvorm van Greibach. 
Gegeven is een contextvrije grammatica G met produktieregels 


S — AS|BS|a 
A — BBla 
B — AAlb 


Gevraagd L(G) als een oplossing van een stelsel verzamelingvergelijkin- 
gen te formuleren. Gebruik vervolgens dit stelsel om alle strings € L(G) 
met lengte kleiner dan vijf te bepalen. 

Gebruik uw oplossing van oefening 5.5 om twee contextvrije talen Lı en 
La te construeren, zodanig dat hun doorsnede Lı N Lz geen CFL is. 
Gebruik de oplossing van opgave 5.11 om aan te tonen dat er een CFL, 
L C T* bestaat met een complement L = T*\L dat geen CFL is. 


Hoofdstuk 6 


Stapelautomaten 


If anyone anything lacks 
He'll find it all ready in stacks. 


Mist iemand ooit ergens iets 

Dan ontstaan er stapels uit het niets. 
—SIR WILLIAM SCHWENCK GILBERT 
The Sorcerer 


De eindige automaat die we in de hoofdstukken 3 en 4 ontmoetten bleek 
een eenvoudig hanteerbaar model voor de behandeling van reguliere talen. In 
dit hoofdstuk beschrijven we een soortgelijke automaat als model voor context- 
vrije talen. Dit is een belangrijke eerste stap in de richting van het ontwerp 
en de bouw van een praktisch te gebruiken doelmatige ontleder en voor de 
compilerbouwer is dit een essentieel onderdeel. 


De automaat die we zullen gebruiken heeft een geheugen in de vorm van 
een stapel (Engels: stack). Een stack is een lineair opslagsysteem voor gegevens 
volgens het ‘last-in, first-out’-principe, waarmee de meeste lezers met enige 
informaticakennis wel op de hoogte zullen zijn. Een stack heeft een top en een 
bodem en op een stack zijn twee operaties mogelijk PUSH en POP genaamd. 
PUSH plaatst een nieuw element op de top van de stack en POP neemt een 
element van de top en levert dit af als resultaat, (zie figuur 6.1). Binnen onze 
toepassing zullen we de elementen van de stack voorstellen met symbolen uit 
een alfabet V en veronderstellen we dat de opslagcapaciteit, dus de stackhoogte 
onbeperkt is. We kunnen dus altijd de PUSH-operatie uitvoeren; een stack 
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overflow is onmogelijk. Stack underflow is natuurlijk wel mogelijk: bij een POP 
moet er altijd minstens een element op de stack staan; als we POP op een lege 
stack toepassen dan ontstaat de underflow conditie. 

Als V het alfabet is van de verzameling symbolen die op de stack kunnen 
staan, dan kan een stack-inhoud worden weergegeven door een string in V*. Het 
eerste symbool van de string geeft de top van de stack weer. We beschrijven dan 
de elementen van de top naar de bodem van de stack door een string van links 
naar rechts te doorlopen. Het voorbeeld in figuur 6.1 wordt dan beschreven 
door BA > ABA > BABA > ABA > BA. De lege stack geven we weer 
door de lege string £. De stackoperatoren PUSH en POP kunnen we nu formeel 
definiëren als functies op strings 


PUSH(A, X) = AX 


definieert het toevoegen van symbool A € V aan een stack met als inhoud de 
string X € V*. | 


_ | niet gedefinieerd als X = € (underflow), | 
POP (X)= { A als X =AY,AEV,YeV*, 


definieert het symbool dat wordt opgeleverd door een POP toegepast op een 
stack met inhoud X. 


| _ $ niet gedefinieerd als X = € (underflow), © 
PoPa(x)= | Y als X = AY,AEV,YE N 


definieert de inhoud van de stack die oorspronkelijk inhoud X had, nadat er 
een POP op is toegepast. 


6.1 Nondeterministische stapelautomaten 


Een nondeterministische stapelautomaat (Engels: nondeterministic pushdown 
automaton, afgekort NPDA) is een nondeterministische eindige automaat met 
een stack waarvan het topelement de overgangsfunctie kan beinvloeden. Bij 
een nondeterministische eindige automaat (NFSA) wordt de verzameling van 
mogelijke volgende toestanden bepaald door de huidige toestand en het input- 
symbool. Bij een NPDA hangt de verzameling van mogelijke volgende toestan- 
den af van de huidige toestand, het inputsymbool en het symbool dat van de 
top van de stack wordt gehaald met een POP-operatie. Tijdens de toestands- 
overgang kan de NPDA een willekeurig eindig aantal symbolen op de stack 
plaatsen. | 

Nu de formele definitie: een nondeterministische stapelautomaat (NPDA) 
is een 7-tupel M = (K,T,V,p,kı, Ai, F) met 


(a) K is een eindige verzameling toestanden, 
(b) T is een eindig inputalfabet, 
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(c) V is een eindig alfabet van stacksymbolen (we schrijven ze meestal als 
hoofdletters uit het begin van het alfabet, mogelijk met subscript), 

(d) pis een totale functie K xV x(TU{e}) naar eindige deelverzamelingen van 
K x V*, Deze functie heet de stapelfunctie, (Engels: pushdown function) 

(e) kı € K is een tevoren aangewezen begintoestand, 

(f) Ai € V is een tevoren aangewezen startsymbool en dit is initieel het 
enige symbool op de stack, 

(g) F C K is een verzameling van eindtoestanden. 


De configuratie van een N PDA, M = (K,T,V,p, kı, A1, F) kan op ieder tijd- 
stip worden beschreven door een geordend paar uit K x V*. Het eerste element 
in dit paar beschrijft de huidige toestand van de automaat en het tweede ele- 
ment beschrijft de huidige stackinhoud. Als een NPDA, M, in configuratie c 
is dan definieren we de overgangsfunctie ty zo dat ty(c,x) de verzameling 
configuraties voorstelt waarin M kan verkeren na een input x € T*. We de- 
finiéren ty : (K x V*) x (TU {e}) — 2K*V" om een stap van de automaat te 
beschrijven en breiden vervolgens de functie uit. | 

Als het eenmalig toepassen van de stapelfunctie p veroorzaakt dat M van 
configuratie c = (k,AX),k € K,A € V,X € V* overgaat in configuratie 
ce’ = (k', YX), k’ € K,Y,X € V* gegeven een input a € TU {e}, dan willen we 
_ dat ty(c,a) c' bevat. We definiëren daarom ty zo dat ty((k, AX), a) dan en 
slechts dan (k’, Y X) bevat als p(k, A,a) (k’, Y) bevat. 

We spreken af dat tm (c‚e) altijd c bevat, maar andere configuraties zitten 
er alleen in als M zonder input vanuit c naar een andere configuratie kan 
overgaan. Dit laatste is het geval als c = (k, AX) zodanig is dat p(k, A,e) # 0. 
We noemen zo’n overgang een e-stap. 

Het eerste deel van de definitie van ty is gereed als we nog afspreken dat 
er geen overgang mogelijk is als de stack leeg is. Dus 


tm((k‚e),a) = Ø voor alle k € K,a ET 
en 


tm((k,e),e) = {(k,€)} voor alle k € K. 


We breiden nu ty uit naar de gezochte functie (K x V*) x T* + 2KxV*. Als 
k E€ K,X €V*,a1,a2,...,a€ TU {e} dan geldt 
tu ((k, X),ajaz...an) bevat (k’, X’),k’ € K, X' € V* 
desd als ty ((k, X), a1) bevat (ka, X2), — 
tm ((ko, Xə), az) bevat (k3, X3), 


tm((kn, Xn), an) bevat (k’, X’), 


voor enige ko,...,kn, X2,..., Xn € V*. Merk op dat sommige a;’s € kunnen 
zijn als M e-stappen kan doen. 
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Nu kunnen we T(M) definiéren: de verzameling van strings die worden 
geaccepteerd door de NPDA, M. 


T(M) = [zx € T*|tm((kı, A1), £) bevat een element uit F x V"}. 


T(M) is dus de verzameling strings die na input kunnen zorgen dat de begin- 
toestand van de automaat uiteindelijk overgaat in een van de eindtoestanden. 
Tenslotte merken we op dat we het subscript M zullen laten vervallen in de 
overgangsfunctie ty als duidelijk is om welke NPDA het gaat. 

We construeren nu bij wijze van voorbeeld een NPDA M met T(M,) = 
{xx"|x € {a,b}*}. We doen dit door de eerste helft van de string op de stack 
op te slaan. Als de tweede helft van de string moet worden verwerkt dan contro- 
leren we eenvoudig of het ingevoerde symbool overeenkomt met het symbool 
dat we van de stack halen. Hierbij hebben we wel een probleem: de input 
wordt element voor element ingevoerd en we kennen de totale lengte dus pas 
als de hele inputstring is ingevoerd. We kunnen daarom niet weten wanneer 
we moeten stoppen met het op de stack zetten van ingevoerde symbolen en 
wanneer we het vergelijkingsproces moeten beginnen. Dit is de reden dat we 
van een nondeterministische automaat gebruik moeten maken. Zolang we sym- 
bolen op de stack zetten blijven we in begintoestand k,. Op ieder willekeurig 
moment kunnen we het vergelijkingsproces beginnen door over te gaan naar 
toestand ka, maar dan kunnen we niets meer op de stack plaatsen. We stel- 
len nu Mı = (([k1, k2, k3}, {a,b}, {a,b, 4}, p, ki, 4, {k3}). Het teken + geeft de 
bodem van de stack aan. De stapelfunctie definiëren we als volgt (we zullen 
in het vervolg bij de beschrijving van een stapelfunctie de regels die de lege 
verzameling genereren weglaten) 


p(kı, a, a) Ein {(kı, aa), (ka, e)}, 

p(ki, b,a) = {(ki, ab)}, 

p(kı, a, b) Sa {(kı, ba)}, 

p(kı, b, b) = {(kı, bb), (ka, e)}, 

p(kı, 5 a) oan {(kı, a, H}, 

p(kı, A, b) = {(kı,b,4)}, 

P(ko, a, a) = {(ka, e)}, 

p(ka, b, b) ris {(ka, e)}, 

p(ka, A €) en {(ks, e)}. 
U gelieve na te gaan dat T(M,) = [zz"lx € {a,b}*}. Als we bijvoorbeeld 
t((ki,4), abba) bekijken, dan kan hieruit iedere configuratie in {(kı,abba + 
), (k2, 4), (k3,€)} volgen en dus is abba € T(M,). 

Volgens stelling 3.3 wordt iedere reguliere taal L C T* geaccepteerd door 

een of andere nondeterministische eindige automaat, M = (K,T,t,ki, F). Uit 
deze NFSA kunnen we een NDPA, M’ = (K,T, {-},p,k1, 4, F) construeren 


met T(M”) = L. M' simuleert het gedrag van M door geen rekening te houden 
met de stackinhoud. Hiertoe definiëren we p als 
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p(k, 4, a) bevat (k’,4) desd als k' € t(k, a). 


De stackinhoud blijft dus + tijdens alle stappen die door M’ worden uitgevoerd. 
Duidelijk is dat x € T(M”) desd als tyq:((k1,4), £) N (F x {A}) # O desd als 
t(k,, 1) NF 40 desd als x € T(M) desd als z € L. 

Uit het bovenstaande volgt dat elke reguliere taal door één of andere non- 
deterministische stapelautomaat wordt geaccepteerd. Op grond van ons voor- 
beeld weten we ook dat men een NDPA kan construeren die een niet-reguliere 
taal accepteert, namelijk {xx"|z € {a,b}*}. NDPA’s accepteren dus een strikt 
grotere klasse talen dan eindige automaten. We zullen zelfs aantonen dat het 
juist de klasse der contextvrije talen betreft. Misschien vraagt u zich af of 
het nondeterminisme wel een nodige eigenschap is. Jammer genoeg is dat in- 
derdaad het geval: deterministische en nondeterministische eindige automaten 
accepteren wel dezelfde klasse van talen, maar dit geldt niet voor stapelauto- 
maten. Men kan aantonen dat nondeterminisme vereist is voor het herkennen 
van de taal (zx"|x € {a,b}*}. Later in dit hoofdstuk komen we terug op de- 
terministische automaten. 


6.2 Het accepteren van contextvrije talen door nondeter- 
ministische stapelautomaten | 


De belangrijkste eigenschap die we in dit hoofdstuk afleiden is het accepte- 
ren van CFL’s door NDPA’s. Voor elke CFL, L bestaat er een NDPA die die 
taal accepteert en omgekeerd is elke taal die door een NDPA wordt geaccep- 
teerd noodzakelijk contextvrij. Voordat we deze eigenschap bewijzen geven we 
een voorbeeld van de constructie van een NDPA die eenvoudige rekenkundige 
expressies accepteert. 

Zij G = (N,T,P,E) een contextvrije grammatica met N = {E,T, F}, 
T = {a,b,c,(,),+,—, x, /} en met de volgende produktieregels in P 


EsT|E+T|IE-T 
T>FITxFIT/F 
F — alblel(E) 


Uit hoofstuk 2 weten we dat elke z € L(G) kan worden gegenereerd door een 
linkerafleiding. De NDPA die we construeren om L(G) te accepteren simuleert 
deze linker afleidingen op zijn stack. Initieel is de inhoud van de stack E mF 
hierbij is 4 een speciaal teken om de bodem van de stack aan te geven. Elk 
van de regels E > T,E — E+T,E — E — T kan nu worden toegepast om 
een nieuwe stackinhoud te genereren en deze zal respectievelijk bestaan uit 
TA,E+T dof E-—T 4. Bij elke stap die de automaat uitvoert wordt het 
topelement van de stack gehaald. Als het een nonterminaal symbool is dan kan 
het verder worden ontwikkeld door het toepassen van een produktieregel; het 
rechterlid wordt dan teruggeplaatst op de stack. Als het een terminaal symbool 
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is dan moet dit overeenkomen met het volgende inputsymbool, wil het proces 
kunnen worden voortgezet. 
We definiëren nu M = (K,T,V,p, ki, d, {k3}) met 


K = {kı, ko, k3), 
Ve NUTO H, 


en p wordt gedefinieerd door 


p(k1,1,€) = {(ko, E 4)}, 
p(ka, E, €) = {(ko, T), (ko, E + T), (ka, E — T)}, 
_p(k2, T,€) = {(ko, F), (k2, T x F), (ko, T/F)}, 
p(ka, F, E) {(ka, a), (ko, b), (ka, c), (ka, (E))}, 
p(k2,a,a) = {(k2, €), p(k2,b,b) 
= {(k2, €)}, p(k2, c, c) = {(k2, €), 
alka, +, leek Mla) = See 
_plka, x, x)= [(ko, e)}, p(ke, IN) = [(k2, €)), 
p(ka, (,() = {(k2, €)}, p(ka, ), )) = {(k2,£)}, 
p(ka, 1, €) = {(ks, €)). 


Toestand kı wordt gebruikt om de stack op E 7 te initialiseren en toestand 
ka wordt slechts bereikt als de stack alleen het symbool 4 bevat. De simulatie 
van de linkerafleiding wordt dus uitgevoerd in toestand ka. In tabel 6.1 is een 
rij configuraties van M weergegeven om te laten zien hoe a x (b + c) wordt 
geaccepteerd. 


Het ontwerp van een efficiënte ontleder voor rekenkundige expressies, ge- 
baseerd op deze automaat is geen gemakkelijke taak. Het probleem is dat drie 
van de gebruikte regels voor p een keuzemogelijkheid voor elke volgende stap 
openlaten. Als x € T(M), dan weten we wel dat er een of andere rij confi- 
guraties moet bestaan die ervoor zorgt dat M z accepteert, maar er bestaan | 
ook veel toegelaten rijen configuraties die niet leiden tot acceptatie van z. In 
de hoofdstukken 7 en 8 zullen we zien dat de grammatica die de taal gene- 
reert bepaalde eigenschappen moet hebben om dit probleem te voorkomen. Is 
aan deze eigenschappen voldaan dan kan wel een efficiënte ontleder worden 
geconstrueerd. 


Stelling 6.1 


Als L een contextvrije taal is dan bestaat er een nondeterministische stapelau- 
tomaat, M met L=T(M). 


Bewijs (schets): | 


Stel de taal L € T* wordt gegenereerd door de contextvrije grammatica G = 
(N,T, P, S). We definiëren dan | 
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BEL ES Ne POLEN CO ARE ado SE 
Rij configuraties 


Resterende input Toestand Stackinhoud 
tla NE REN 


ax (b+c) ky + 
ax (b+c) k2 E 4 
ax (b+c) ka T4 
a x (b+c) k2 ERFA 
a x (b+c) ka F x F A 
ax (b+c) k2 end, 
x (b+c) kz x FA 
(b+c) k2 F + 
(b+c) k2 (E) 4 
b+c) k2 E) A 
b+c) k2 A+ DA 
b+c) k2 T+T) A 
b+c) k2 F+T) A 
b+c) k2 b+T)4 
' +c) k2 + T) 4 
c) ko TJA 
c) k2 F) A 
c) k2 c) 4 
) Ro JA 
€ ka 4 
€ k3 E 
AER ES E EBER A ANS ON le NEE RE 


Tabel 6.1 


M = (K,T,V,p, kı, A, {k3}) zodanig dat 
K = {ki, ko, k3}, 
V=NUTU{A},A¢ NUT, 


terwijl p wordt gedefinieerd als 
p(ki, +, €) $ {(ka, S Uh 


p(k2, A, £) = {(k2, @)|A — a in P}, voor alle A € N, 
P(k2, a, a) = {(k2,€)}, voor alle a € T, 


p(ka, a? €) ag {(ks, e)}. 


Op grond van deze constructie geldt voor z € T*,a € (NUT)*, dat S 3 za 
een linkerafleiding is dan en slechts dan als ¢((ky, 1), 2) (k2, a 4) bevat. Dus 
geldt x € L(G) desd als S > x desd als t((k1,1), 2) (kz, 4) bevat desd als 
t((k1, 1), 2) (ka, 4) bevat desd als z € T(M). 
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Het omgekeerde van stelling 6.1 is ook waar, dat wil zeggen: iedere taal die 
door een NDPA wordt geaccepteerd is noodzakelijk contextvrij. Voordat we 
dit kunnen bewijzen moeten we een andere eigenschap van NDPA’s afleiden. 
Stel M = (K,T,V,p,k1, A1, F) is een willekeurige NDPA. We construeren nu 
uit M een NDPA, M' = (K',T,V’,p’, ki, A, F’) zodanig dat 


K'= KU{kl,k} met ki, ki, ¢ K, 
V'= VU{4} met JV, 


p' is gelijk aan p, maar we voegen de volgende regels toe ten aanzien van de 
nieuwe toestanden k/,k5 en het nieuwe stacksymbool 7, 


p(k}, "a, E) = {(kı, Ay Ay}; 
p'(k, A,€) = [(ko, €)), voor alle A € Vek EF, 


en 


p'(k5, A, e) = {(kp,€)}, voor alle A € V’, 
Fiske}. 


Met de eerste van deze regels wordt het symbool dat de bodem van de stack 
aangeeft op de stack gezet voordat M’ begint met de simulatie van M. Als 
M' ooit een eindtoestand in F bereikt, moet. er minstens nog één symbool 
op de stack staan. De tweede regel kan worden gebruikt door M ‘ om naar 
toestand k} over te gaan zonder dat hiervoor extra input nodig is. Omdat 
kh € F' geldt T(M) = T(M”). M' heeft maar één eindtoestand en zodra M' 
naar die toestand overgaat kan de derde regel worden gebruikt om de stack 
leeg te maken. We krijgen de volgende stelling. 


Stelling 6.2 


Als L wordt geaccepteerd door een NPDA, M, dan wordt L ook geaccepteerd 
door een NPDA, M', met maar één eindtoestand, waarin de automaat de 
stack leegmaakt zonder dat hiervoor verdere input nodig is. Deze eindtoestand 
is verder de enige toestand waarin de stack kan worden leeggemaakt. 


Nu kunnen we de tweede belangrijke stelling van dit hoofdstuk formuleren. 


Stelling 6.3 


Als L = T(M) voor een of andere nondeterministische stapelautomaat dan is 
L een contextvrije taal. 


Bewijs (schets): 

We mogen veronderstellen dat L wordt geaccepteerd door een NDPA met de 
eigenschappen die in stelling 6.2 werden beschreven. We labelen de toestanden 
kı, ka,...,kn met kı als begintoestand en kn als enige eindtoestand. Zij M = 
({ki, k2,- ., kn}, T, V, p, kı, Az, {kn}) de NDPA die L accepteert. We moeten 
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nu uit M een contextvrije grammatica G construeren zodanig dat T(M) = 
L(G). ' 

Bij iedere A € V gebruiken we het nonterminale symbool A® in de gecon- 
strueerde grammatica om alle inputstrings te genereren die ons van toestand 
k; naar toestand k; in M zouden brengen en tegelijkertijd verwijderen we het 
symbool A van de top van de stack. De rest van de stack laten we ongemoeid. 
T(M) is nu de taal die door A!” wordt gegenereerd. 

We definiëren G = (N,T, P, S) met 


N={AÏlAEV‚1<ij <n}, 
Su" 


P construeren we als volgt: bij iedere regel die de stapelfunctie van M definieert 
stellen we 


(a) als p(k; A,a),k; € KA € Via € TU fe} (kj, BiBo...Bm),k; € 
K, By, B2,..., Bm € V bevat dan zit | 


ij ini pnina Nm ij 
a” HABLA i. Ben 


in P voor alle 1 < n,,n2,...,Rm-1< n; en | 
(b) als p(k;, A,a),k; € K,A € V,a E TU {e} (k;,€),k; € K bevat dan zit 
AÏ — a in P. 


Uit deze constructie volgt dat x € T(M) desd als t((k1, A1), £) (kn,e) bevat 
desd als A!” 5 x desd als x € L(G) en hiermee is de stelling bewezen. 


Op deze wijze hebben we een andere omschrijving verkregen van context vrije 
talen —het zijn de talen die door nondeterministische stapelautomaten worden 
geaccepteerd. Een aantal verdere eigenschappen van de klasse van context vrije 
talen kunnen we op grond hiervan bewijzen. 


Stelling 6.4 
Als L een CFL is en R is een reguliere verzameling dan is ook LN R een CFL. 


Bewijs (schets): 
L = T(M) voor een NDPA, M = (K,T,V,p,ky, A1, F), en R = T(M) voor 
een NFSA, M = (KIT, t, ki, F). We construeren een NPDA M x M die LN 
R accepteert. Het komt er op neer dat M x M het gedrag van M en M 
tegelijkertijd simuleert en x wordt dan en slechts dan door Mx M geaccepteerd 
als beide automaten afzonderlijk x accepteren. _ 

Formeel geldt M x M = (K x K,T,V,p’, [ki, kı], Ai, F x F). p' wordt met 
behulp van de volgende regels gedefinieerd: voor ER € KEK € KA“ 
V,a €T, X € V* geldt 


(a) ([k’, k’], X) € p'([k, k], A, a) desd als (k’, Z) € p(k, A,a) en k’ € i(k, a), 


~ 


(b) ([£",k'], X) € p'([k, k], A, €) desd als (k’, Z) € p(k, A, e) en k' = k. 
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Met behulp van inductie naar het aantal stappen dat tijdens de 
berekening wordt uitgevoerd kan worden aangetoond dat ([k, k], X ) in 
t mx m (Uk, kı], A1), 2) zit desd als (k, X) in tm((kı, A1), £) zit en als k in 
f(kı, x) zit. Dus geldt x € T(M x M) desd als ty, yw (([ki, kı], A1), x) ({k, k], X) 
bevat en voor een k € F,k € F, X € V* en dit geldt desd als fm((kı, A1), £) 
(k, X) bevat voor k € F en X € V* en als t(ki,z) k,k € F bevat desd als 
2 E T(M) en z € T(M). Dus geldt T(M x M) = T(M) NT(M) = LN R en 
hiermee is de stelling bewezen. 


6.3 Deterministische stapelautomaten 


Als een stapelautomaat hoogstens één stap kan maken vanuit iedere configu- 
ratie dan heet de automaat deterministisch. Formeler gesteld: een automaat 
M = (K,T,V,p,k,, A1, F) is een deterministische stapelautomaat (Engels: 
Deterministic Pushdown Automaton (DPDA)) als voor alle k € K,a € T en 
A € V geldt 


(1) p(k, A, a) bevat hoogstens één element, 
(2) p(k, A,e) bevat hoogstens één element, | 
(3) als p(k, A,e) # D dan is p(k, A,a) = M voor alle a ET. 


De derde eis zorgt ervoor dat er geen enkele andere stap kan worden gedaan 
vanuit dezelfde configuratie als er een stap kan worden gedaan zonder dat 
hiervoor input nodig is. 

Op grond van de definitie van een DPDA hebben alle regels die de automaat 
definiéren rechterleden die ofwel singleton-verzamelingen zijn, ofwel leeg zijn. 
We spraken al eerder af dat we regels met lege rechterleden zouden weglaten 
en alle regels hebben dus de volgende vorm 


f(k, A,a) = {(k', X)). 
De gebruikelijke notatie voor dit type regels is 
f(k, A,a) = (k’, X). 


en deze notatie zullen wij hier ook verder aanhouden. 

Een taal die door een DPDA wordt geaccepteerd heet een deterministische 
contexvrije taal (Engels: deterministic context-free language (DCFL)) of korter 
een deterministische taal. Helaas is niet iedere CFL deterministisch, maar de 
DCFL’s vormen wel een belangrijke klasse van talen. Wordt een CFL geaccep- 
teerd door een DPDA dan is de oplossing van het afleidingsprobleem een stuk 
eenvoudiger. De syntaxisdefinities van de meeste moderne programmeertalen 
zijn zo geformuleerd dat in die taal geschreven programma’s betrekkelijk ge- 
makkelijk kunnen worden gecompileerd. De efficiëntie van een ontleder (parser) 
hangt af van de exacte eigenschappen van de syntaxdefinitie van de taal. De 
allerzwakste randvoorwaarde is wel dat de syntaxis een deterministische taal 
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moet definiëren. In de volgende twee hoofdstukken zullen we zien waartoe deze 
en sterke randvoorwaarden kunnen leiden. De rest van dit hoofdstuk wijden 
we aan voorbeelden en eigenschappen van deterministische talen. 

Eerst kijken we wat nader naar reguliere verzamelingen. Elke reguliere ver- 
zameling kan worden geaccepteerd door een deterministische eindige automaat 
en zo’n DFSA kan eenvoudig worden gesimuleerd door een DPDA die zijn stack 
niet gebruikt. Hieruit volgt dat iedere reguliere verzameling deterministisch is, 
maar niet iedere DCFL is regulier. Dit laatste tonen we aan met een voorbeeld 
van een DPDA die de niet reguliere taal {a"b"|n > 1} accepteert. 

M = ({kı, ka, k3}, {a, b}, {a, 4}, p, kı, s {k3}) met 


p(ki, 4, a) = (ky, a 4), 
p(k, a, a) = (kı, aa), 
p(ky, a,b) = (ko, €), 
P(ko, a,b) = (ko, €), 
p(ka, +, €) = (k3, E). 


Zolang deze DPDA in toestand k, is wordt elke a op de stack gezet tot- 
dat een b wordt ingevoerd. Dan gaat de automaat over in toestand ky waarin 
elementen van de stack worden gehaald. Hierbij wordt voor elke ingevoerde b 
een a van de stack gehaald. Als nu het oorspronkelijk aantal a’s op de stack 
precies overeenkomt met het aantal ingevoerde b’s dan bevat de stack uitein- 
delijk alleen het bodemsymbool + en er is geen verdere input nodig om naar 
de eindtoestand over te gaan. 

Het is zonder meer duidelijk dat iedere deterministische taal een context- 
vrije taal is; immers, de taal wordt geaccepteerd door een DPDA en dit is een 
nondeterministische stapelautomaat waaraan een bepaalde extra beperking is 
opgelegd. In oefening 9.12 lieten we zien dat er een CFL, L C T* bestaat 
waarvan het complement L = T*\L geen CFL is. Hier zullen we nu aantonen 
dat het complement van een DCFL noodzakelijk ook een DCFL is. Het bewijs 
dat we schetsen is vrij ingewikkeld en kan bij eerste lezing worden overgeslagen. 
Een belangrijke gevolgtrekking is dat er contextvrije talen bestaan die niet 
deterministisch zijn. 

Zij L C T* een deterministische taal gegenereerd door de DPDA, M = 
(K,T,V,p,k,, Ay, F). Wat we willen is in principe het omkeren van de rollen 
van de eindtoestanden en de inwendige toestanden zodat een DPDA, M, ont- 
staat die de taal L = T*\L accepteert. Voordat we zover zijn moeten we eerst 
een paar problemen oplossen. | 

Het eerste probleem is dat er in M ‘doodlopende stukken’ kunnen zitten, 
dat wil zeggen: er kunnen strings z € T* bestaan zodanig dat het invoeren van 
een prefix van z in M leidt tot een configuratie van waaruit geen volgende stap 
mogelijk is, of van waaruit een oneindige rij e-stappen kan worden uitgevoerd. 
In beide gevallen geldt toch z € L en we moeten dus M met zorg construeren 
willen dit soort strings worden geaccepteerd. Dit probleem lijkt op het probleem 
dat we bij het bewijs van stelling 3.4 tegenkwamen toen we aantoonden dat 
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het complement van een reguliere verzameling noodzakelijk regulier is. Net 
als bij dat bewijs kunnen we het probleem oplossen door de oorspronkelijke 
automaat op een geschikte manier aan te passen. We construeren dus uit M 
een nieuwe DPDA, M’, zó dat T(M) = T(M”), maar ook zo dat M’ altijd 
de gehele input inleest. M’ is identiek aan M, maar kent een symbool 4 ¢ V 
dat de bodem van de stack aangeeft en drie extra toestanden s,d, f ¢ K. M' 
begint in toestand s met 4 op de stack, maakt vervolgens onmiddellijk een €- 
stap naar toestand kı en plaatst A; 4 op de stack. M ' gaat nu verder met het 
simuleren van M, maar met enkele belangrijke verschillen. Als voor M geen 
volgende stap mogelijk is gaat M’ over in de dummytoestand d en leest van 
daaruit de rest van de input in. De extra eindtoestand f wordt gebruikt om de 
situatie te doorbreken waarin M een oneindige rij e-stappen kan uitvoeren. Als 
zo’n rij mogelijk is in een of andere configuratie c dan moet er een configuratie 
c! = (k, AX) bestaan met k € K,AEVU{H,X E (VU {4})* die vanuit c 
te bereiken is via een eindige rij e-stappen, terwijl vanuit c’ een oneidige rij 
e-stappen kan worden uitgevoerd zonder dat verder elementen van de stack die 
X bevat worden gehaald. Tijdens deze oneindige rij stappen kan al dan niet 
een eindtoestand worden bereikt. Als wel een eindtoestand wordt bereikt, dan 
definiëren we M’ zo dat de configuratie c' = (k, AX) overgaat in (f, AX) na 
een input e en als geen eindtoestand wordt bereikt dan laten we M' overgaan 
naar (d, AX) na deze input. Om ervoor te zorgen dat M’ de hele input inleest, 
moeten we niet vergeten naar toestand d over te gaan zodra we toestand f 
hebben bereikt. 

Formeler definieren we. 


M'=(K DV Patiti) 
met 
K' =K U {s,d, f} zodanig dat s,d,f ¢ K, 


V' =V U {4} zodanig dat IE V, 
F=SFuUtE, 


p' wordt als volgt gedefinieerd 


(a) p'(s,1,£)= (bi, Ar), 

(b) voor alle k € K,A € V en a € T met p(k, A,a) = Den p(k, A,e) = D 
geldt p'(k, A,a) = (d, A), 

(c) p'(d, A,a) = (d, A) voor alle AE V’ ena ET, 

(d) voor alle k € K, A € V waarvoor een oneindige rij e-stappen kan worden 
gedaan vanuit een begintoestand (k, A) stellen we 


u! (d, A) als geen van die stappen M 
p'(k, Aje) = - in een eindtoestand brengt 


(f, A) in alle andere gevallen. 
(e) p'(f,A,€) = (d, A) voor alle A € V’, 
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(f) als p'(k, A, a) niet is gedefinieerd door één van de bovenstaande regels (a) 
tot en met (d) dan stellen we p'(k, A, a) = p(k, A,a) met ke K,A EV 
ena E TU {e}. 


Ga na dat nu T(M) = T(M') en dat M’ altijd de gehele input leest. Misschien 
vraagt u zich af hoe nu eigenlijk de machine kan worden geconstrueerd. Vooral 
stap (d) geeft moeilijkheden: kunnen we vanuit een configuratie (k, A) nagaan 
of er een oneindige rij e-stappen kan worden uitgevoerd en, zo ja, kunnen we te 
weten komen of de DPDA tijdens die stappen in een eindtoestand terechtkomt? 
Het antwoord op beide vragen is ‘ja’—zie oefening 6.11 aan het einde van dit 
hoofdstuk. 

Voordat we de rollen van de eindtoestanden en de Inwendige toestanden 
kunnen omkeren moeten we nog een laatste probleem oplossen. Dit probleem 
ontstaat als M' een aantal e-stappen uitvoert na een input z € T*. Na bepaalde 
stappen kan M’ zich in een eindtoestand bevinden, na bepaalde andere juist 
niet. Als we de rollen van eindtoestanden en niet-eindtoestanden omkeren dan 
verandert dit niets aan deze situatie. We moeten het probleem oplossen door 
opnieuw een DPDA, M” uit M’ te construeren met T(M”) = T(M’) = T(M). 
M” heeft dezelfde toestanden als M' maar hierbij noteren we extra informatie 
die aangeeft of de automaat langs een eindtoestand is gekomen sinds de laatste 
niet-lege input. Als dit het geval is dan is M” in een toestand met suffix 1 en 
als dit niet het geval is dan bevindt M” zich in een toestand met suffix 2. 
Tijdens het lezen van een niet-lege input door M” kan deze overgaan in een 
toestand met suffix 1 naar een toestand met suffix 2 of omgekeerd, afhankelijk 
van het antwoord op de vraag of M’ een eindtoestand is gepasseerd. 

Formeler: als M’ = (K',T,V‘, p', s,4, F”), dan definiëren we M” = (K",T, 
Vep”, ur > F") met, 


K” = {kijk € K',t= 1 of 2}, 


ds alseeT(M), 
| sz in alle andere gevallen, 


F"= {kılkeK'}. 
p” definiëren we als volgt: 


(a) als p'(k, A,e) = (k’, X),k' € K',X E (V')* voor k € K' en A € V' dan 
is | 
p"(k1,A,e) = (kY,X) en 
Pa _ J (Kj, X) als k' € F', 
pit Aue) = { (k3, X) in alle andere gevallen. 
(b) voor k € K',A € V' ena ET, als p(k, Aa =(K, X, € K’ Xe 
(V’)* dan is 


/ / / 
p"(ki, A, a) = p"(ka, A, a) = { (ki, X) als k EF, 


(k3, X) in andere gevallen. 
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dn 


Gesloten onder Regulier Deterministisch  Contextvrij 
NS TI Aa BR cI MR LAR ASE: PSL RCN E RE 

vereniging hades nee ja 

concatenatie ja nee ja 

complement ja ja nee 

doorsnede ja nee nee 

Kleene afsluiting ja nee ja 

doorsnede met 

reguliere verzameling ja ja ja 

homomorfisme ja nee ja 


ne 


Tabel 6.2: Eigenschappen ten aanzien van geslotenheid 


Nu kunnen we veilig de rollen van de eindtoestanden en de niet-eindtoestanden 
van M” omkeren en we krijgen dan een DPDA M die L accepteert en hiermee 
hebben we de schets van het bewijs van de volgende stelling voltooid. 


Stelling 6.5 
Als L C T* een determistische taal is dan is L = T*\L dat ook. 


Ook de volgende stelling hebben we hiermee bewezen. 
Stelling 6.6 


(a) Iedere reguliere taal is deterministisch, maar er bestaan deterministische 
talen die niet regulier zijn. 

(b) Iedere deterministische taal is contextvrij, maar er bestaan contextvrije 
talen die niet deterministisch zijn. 


De eigenschappen van deterministische talen verschillen aanmerkelijk van die 
van contextvrije talen. We gaven een schets van een bewijs dat deterministische 
talen gesloten zijn onder de complement-operatie. Dit wil zeggen dat het feit 
dat L deterministisch is impliceert dat L deterministisch is, maar dit is niet de 
enige eigenschap die verschillend is voor deze twee klassen van talen. In tabel 
6.2 is een aantal eigenschappen ten aanzien van geslotenheid, voorzover bekend 
aangegeven voor reguliere verzamelingen deterministische talen en contextvrije 
talen. 
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6.4 Oefeningen 


1. Gegeven een input 012345 en een stack S. Gevraagd: welke van de vol 
gende strings kunnen louter met PUSH en POP operaties op S worden 
gegenereerd? 


(a) 543210, 
(b) 534210, 
(c) 431250, 
(d) 415320, 
(e) 542301. 


(Algemeen: als x = aja) ...a,, waarbij 41,..., 4, verschillende symbolen 
zijn dan zijn er n! verschillende permutaties mogelijk. Daarvan zijn er 
2n 
n+1 n 
en POP operaties toe te passen. Zie bijvoorbeeld Graph Algorithms door 
Shimon Even, Pitman Publishing Ltd. voor een eenvoudig en elegant 
bewijs.) 
2. Construeer DPDA’s om aan te tonen dat de volgende talen determinis- 
tisch zijn. | 


(a) {wew"|w € {a,5}*}, 
(b) {a'b |j > i}. 


3. Als L deterministisch is en R regulier bewijs dan dat LAR deterministisch 
is. 

4. Een NPDA, M = (K,T, V,p, kı, Ai, F) accepteert een taal E(M) CT 
met lege opslag als E(M) = {z|ty((ki, 41), £) bevat (k‚e) voor een 
k € K}. Bewijs dat E(M) noodzakelijk contextvrij is. (Het omgekeerde 
is ook waar: voor elke CFL, L, bestaat er een NPDA, M, met L = E(M). 
Dit volgt uit stelling 6.2.) 

5. Ontwerp een NPDA die strings accepteert die worden gegenereerd door 
een grammatica met de volgende produktieregels 


echter slechts bereikbaar door via een stack alleen PUSH 


S —aAlaBB 
A — Ba|Sb 
B —bASle 


6. L is een deterministische taal. Bewijs dat MIN(L) = {z|z € L en geen 
w € L is een zuivere prefix van x} ook deterministisch is. 

T. Maak gebruik van het feit dat {a'b’c*|i # jen j # k} geen CFL is om 
te bewijzen dat {afb c*|i = j of j = k} niet deterministisch is. Toon ver- 
volgens aan dat er twee deterministische talen Li en Lə bestaan zodanig 
dat Lı U La niet deterministisch is. 

8. Gebruik het resultaat van oefening 6.7 om te bewijzen dat deterministi- 
sche talen niet gesloten onder doorsnede zijn. 
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9. 


10. 


11. 


| Bali, j, k] 
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Toon aan dat iedere DCFL wordt geaccepteerd door een DPDA, M, 
zodanig dat geen enkele stap meer dan twee symbolen uit het stackalfabet 
op de stack plaatst. 
Bewijs dat iedere DCFL, L C T*, wordt geaccepteerd door een DPDA, 
M =(K,T,V,p, kı, A1, F), zodanig dat als er een stap wordt gedefinieerd 
door p(k, A,a) =(k',X),k,k' € K,a E TU {£}, A € V,X E V* deze stap 
noodzakelijk van één van de volgende typen is 

(a) een verwijdering van de stack, d.w.z. X = €, 

(b) een plaatsing op de stack van een enkel symbool, d.w.z. X = BA, 

A,BeV, of 

(c) een stap waarbij de stack onveranderd blijft, d.w.z. 2 32 A, 
Beschouw een DPDA, M = ({kı,...,kn}, T,{Aı,..., Am} P, ki, A1, F) 


die de eigenschappen heeft die in oefening 6.10 werden beschreven. Defi- 
nieer drie Boole’se 3-dimensionale arrays Bı, B2, B3 met 


Bi[i, j, k] = true desd als tm ((k;, Ax), €) (kj, Ax) bevat, 
Bali, j, k] = true desd als tm ((k;, Ax), €) (kj,€) bevat, 
= true desd als tu ((k;, Ax), €) (kj, X) bevat voor een X EV”. 


Formuleer iteratieve algoritmen voor de constructie van deze arrays van- 
uit M. Toon vervolgens aan dat stap (d) in de constructie van M’ in dit 
hoofdstuk effectief berekenbaar is. 


Hoofdstuk 7 


Neerwaartse ontleding 


lam nova progenies caelo demittitur alto 
(Een nieuwe generatie daalt nu af van boven) 
— Vergilius 

Eclogae IV 


In hoofdstuk 6 lieten we zien dat nondeterministische stapelautomaten con- 
textvrije talen accepteren. Juist wegens het nondeterministische karakter van 
deze machines is tijdens het ontleden van zo’n contextvrije taal ‘backtracking’ 
nodig. Het ontleedalgoritme voert op deterministische wijze stappen uit en 
kiest een bepaalde stap als meer dan één stap mogelijk is. Dit kan betekenen 
dat bij een verkeerde keuze één of meer stappen terug moeten worden gedaan 
om vervolgens opnieuw een keuze te maken. Dit laatste noemt men ‘backtrac- 
king’ of ‘terugkrabbelen’. Als we aan een grammatica die een taal definieert 
bepaalde beperkingen opleggen dan is het wel mogelijk efficiënte op een stack 
gebaseerde ontleedalgoritmen te ontwerpen die van bepaalde standaardtechnie- 
ken gebruik maken. Ontwerpers van programmeertalen zijn op de hoogte van 
deze beperkingen en trachten de grammatica van hun taal zo te formuleren dat 
een snelle en efficiënte compiler mogelijk wordt. 

Een string x = a142...an € L(G) kan op twee verschillende manieren 
worden ontleed. Ten eerste kunnen we een afleidingsboom van boven af of top- 
down construeren; we beginnen dan bij de wortel S en bouwen de boom zo van 
bovenaf op dat de blaadjes de symbolen a}, 42,..., An zijn. Ten tweede kunnen 
we van onderen, of bottom-up beginnen; we gaan dan uit van de string x en 
proberen de inwendige knopen van de boom tot aan de wortel af te leiden. In 
figuur 7.1 zijn deze twee benaderingen schematisch weergegeven voor de string 
abba$ en de contextvrije grammatica G, met regels 


SCS 
C—bAlaB 
A—alaC 
B —b|bC 


In dit hoofdstuk richten wij onze aandacht op ‘LL-ontleding’, een top-down 


methode. In hoofdstuk 8 bespreken wij opwaartse of bottom-up ontleedmetho- 
den. Om op een taal een LL-ontleedmethode te kunnen toepassen, moeten er 
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© © a © ® E 
OD Qs GRO 
SD da @O@ ONO 
do 0. ORO 
ORO ORO 
© 


(a) Neerwaarts (top-down) 


(B) 
€ (3 
sah EB 100006 


S 1591949 
SA) DL) 10) 


OOOOO OOOOE 
(b) Opwaarts (bottum-up) 


Figuur 7.1 


vrij strenge restricties aan de grammatica die de taal definieert worden opge- 
legd. In praktische situaties blijken deze restricties, die ons beperken tot een 
subklasse van de deterministische talen, niet erg belemmerend want vrijwel alle 
moderne compilers berusten op de bijbehorende ontleedmethode. 


7.1 LL(K)-grammatica's 


We bekijken weer de contextvrije grammatica G,. De neerwaartse constructie 
van de ontleedboom voor de string abba is in figuur 7.la getekend. Hoe wordt 
zo’n boom nu opgebouwd? We beginnen met knoop ©) en we kunnen maar één 


produktieregel toepassen. We krijgen dan de volgende boom: . We 
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kunnen nu © uitbreiden en krijgen 


® 
of © ® 
a ® 


afhankelijk van het kiezen van de regel C — bA of C > aB. Omdat abba$ met 
een a begint moet de tweede mogelijkheid de juiste zijn; met andere woorden: 
door naar het eerste symbool van de input te kijken kunnen we bepalen welke 
regel we moeten toepassen. We hebben nu een a gegenereerd die overeenkomt 
met de eerste a van de inputstring en nu moeten we controleren of B > bba. 
De knoop B kunnen we weer op twee manieren uitbreiden. We krijgen: 


Nu kunnen we niet op grond van dit resultaat beslissen welke van deze moge- 
lijkheden de juiste is, maar als we twee stappen vooruit kijken dan gaat het wel. 
Als de volgende twee symbolen die we met de inputstring moeten vergelijken 
b$ zijn dan moeten we het eerste alternatief kiezen, zijn ze bb of ba dan moeten 
we het tweede alternatief kiezen. In ons geval weten we dat de volgende twee 
symbolen bb zijn en we kiezen dus voor de tweede mogelijkheid. Nu moeten we 
C verder uitbreiden en controleren dat C > ba. We hoeven slechts een symbool 
vooruit te kijken om te beslissen dat we de regel C' — ba moeten gebruiken en 
vervolgens moeten we nog eens twee symbolen vooruit kijken om de laatste pro- 
duktieregel A — a te kiezen. De constructie van de afleidingsboom komt dus 
overeen met de linker afleiding S > C$ > aB > abC$ > abbA$ > abba$. 

Gi is een voorbeeld van een (strenge) LL(2)-grammatica: men moet maxi- 
maal twee symbolen vooruitkijken om uit de mogelijke produktieregels de juiste 
te kiezen in elk stadium van de linkerafleiding. Een LL(k)-grammatica (k > 1) 
is een grammatica waarbinnen, gegeven een zin wAy,weET*,AE Nye 
(NUT)* gegenereerd door een linkerafleiding, hoogstens k symbolen vooruit 
moet worden gekeken om eenduidig vast te stellen welke van de produktieregels 
met A in het linkerlid moet worden gebruikt. De eerste L in LL staat voor 
‘lezen van links naar rechts’ en de tweede L staat voor ‘linkerafleiding’. Binnen 
een LL(k)-grammatica kan de keuze van de toe te passen regel dus niet alleen 
afhangen van het nonterminale symbool A en van de volgende k te bekijken 
inputsymbolen, maar ook van de string w € T* voor A in de zin en van de 
string y € (NUT)* na A in de zin. Hangt de volgende produktieregel alleen af 
van het uit te breiden nonterminale symbool en van de volgende k te bekijken 
symbolen dan noemen we de grammatica streng LL(k). 
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Om deze begrippen formeel te definiëren, voeren we in: 


EERSTE, : 7* — T* met 


z als |z|<k, 
y alsz=yz,yeT*,zeT*. 


We laten EERSTE, op talen werken door te definiëren 
EERSTE, (L) = {EERSTE (z)|z € L} voor alle L C 7". 


EERSTE; (2) = { 


Nu kunnen we LL(k) en streng LL(k) formeel definiëren. 


Als G = (N,T, P, S) een contextvrije grammatica is dan heet G LL(k), (k > 1) 
als geldt dat, wanneer er twee linkerafleidingen bestaan 


S Š wAy > way > wy € T* 
en | 
S Š wAy > why > wz ET* 
dat dan uit EERSTE;(y) = EERSTE;(z) volgt dat a = £. 


G heet streng LL(k)(k > 1) als geldt dat, wanneer er twee linkerafleidingen 
bestaan 


S Š wAy > way > wy € T* 
en 
S Š 2Ab > rb > rz € T* 


dat dan uit EERSTE; (y) = EERSTE; (z2) volgt dat a = 2. 

In het algemeen is het onmogelijk vast te stellen of een contextvrije gram- 
matica meerduidig (ambigu) is of niet. Als we kunnen aantonen dat een gram- 
matica streng LL(k) is, dan bewijzen we in de volgende stelling dat hij eendui- 
dig moet zijn. Dit geldt trouwens ook voor gewone LL(k)-grammatica’s, (zie 
oefening 7.7). 


Stelling 7.1 


Als G = (N,T,P,S) een strenge LL(k)-grammatica is, (k > 1) dan is G 
eenduidig. 

Bewijs: 

Stel G is meerduidig. Dan bestaat er een w € L(G) met twee verschillende 
linkerafleidingen vanuit S. We zullen laten zien dat dit tot een tegenspraak 
leidt. 

Stel T, en T> zijn de afleidingsbomen bij de twee verschillende linkerafleidin- 
gen van w = 4142 .. . An. Beide bomen hebben wortel S en blaadjes aı,aa,..., 
an, maar zij zijn per definitie verschillend. We lopen nu door beide bomen door 
middel van een zogenaamde preorder bewandeling die als volgt recursief wordt 
gedefinieerd: | 
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Figuur 7.2 


bezoek de wortel; 
bezoek de subbomen verbonden met de wortel van links naar rechts volgens 
de preorder methode. | 


Bij deze systematische bewandeling van de bomen moeten we knopen in 7; en 

T> tegenkomen die verschillende labels hebben. Stel de knopen B en C zijn de 

eerste verschillende knopen die we tegenkomen, (zie figuur 7.2). Het zijn niet 

de wortels, want die hebben beide het label S. Zij hebben dus beide een ouder, 

laten we die A noemen. | | 
De afleidingsboom Tı komt nu overeen met de linkerafleiding 


SS rAy > zaB nn > zyıyı > zyızı = w 
en Ta komt overeen met 
S Š rAy > LAC Bay? => LY272 => zyoz2 = w 


Omdat EERSTE; (y; 21) = EERSTE; (y2z2) en aBB, # aC Bo volgt dat G niet 
streng LL(k) kan zijn en dit is de gezochte tegenspraak. Hiermee is de stelling 
dus bewezen. 


Per definitie is iedere strenge LL(k)-grammatica ook LL(k), maar voor k > 1 
bestaan er LL(k)-grammatica’s die niet streng zijn, (zie oefening 7.5). Voor 
k = 1 zijn de twee definities wel equivalent, (zie hierna). Ook is aangetoond, 
(D.J. Rosenkrantz & R.E. Stearns, [1970] Properties of deterministic top-down 
grammars, Information and Control, 17, 226-256) dat de klasse van talen ge- 
genereerd door LL(k)-grammatica’s juist de klasse van talen gegenereerd door 
strenge LL(k)-grammatica's is, voor alle k > 1. 
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Stelling 7.2 


De contextvrije grammatica G = (N,T,P,S) is streng LL(1) dan en slechts 
dan als zij ZL(1) is. 


Bewijs: 

=>: Dit volgt onmiddellijk uit de definitie. 

<=: Zij G een niet strenge LL(1)-grammatica. We proberen weer een tegen- 
spraak te vinden. 

Omdat G niet streng LL(1) is bestaan er per definitie verschillende pro- 
duktieregels A — a en A — zó dat voor een w,2,41,Y2, 21,22 € T* en 
7,6 E (N UT)* twee verschillende linkerafleidingen 


S Š wAy > way > wyıY > wyıya 
en 
S Š rAó > rb Š 22163 22122 


bestaan met EERSTE: (yıy2) = EERSTE, (2122). 
We moeten aantonen dat G niet LL(1) is. Er geldt ofwel 


(a) yı = 21 = € en dan is G zeker niet LL(1), ofwel 
(b) Y1 21 se €. 
In geval (b) mogen we zonder verlies van algemeenheid veronderstellen dat 


yı + e. Dan is dus EERSTE; (y1y2) = EERSTE, (y) = EERSTE; (2122). 
Maar de twee linkerafleidingen 


S Š 2Ab > raf > 2y10 > 24122 


en 
S Š 2A6 > aß > 1216 > 22122 


voldoen aan EERSTE,(y:) = EERSTE;(z122), maar a £ £ en dus is G niet 
LL(1). Dit is de gezochte tegenspraak en hiermee is de stelling bewezen. 


De speciale klasse van LL(k)-grammatica's met k = 1 is van bijzonder belang 
voor de compilerbouw. Ontwerpers van programmeertalen streven er vaak naar 
de syntaxis zo te definiëren dat deze grotendeels LL(1) is. Zelfs als de gram- 
matica niet is ontworpen met dit uitgangspunt, dan nog kunnen de regels vaak: 
zo worden getransformeerd dat een gelijkwaardige LL(1)-vorm wordt bereikt. 
Een manier om dit voor elkaar te krijgen, is door gebruik te maken van het syn- 
taxisverbeterende hulpmiddel van Foster, (Engels: Fosters’s Syntax Improving 
Device (SID)). Dit werd al in 1968 beschreven in het Computer Journal. SID 
converteert automatisch iedere ingevoerde grammatica naar een LL(1)-vorm, 
voor zover dit mogelijk is. Vaak zijn er bepaalde gedeelten in de grammatica 
die niet in LL(1)-vorm kunnen worden gedefinieerd en die delen moeten dan 
afzonderlijk worden behandeld. Als voor het grootste deel van de syntaxis een 
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LL(1)-grammatica is opgesteld dan kan een ontleder gemakkelijk worden ont- 
worpen of zelfs automatisch worden gegenereerd met behulp van een methode 
die recursieve afdaling wordt genoemd. De resterende grammaticaregels wor- 
den dan in de ontleder handmatig opgenomen. Deze techniek is bij bijna alle 
Pascal-compilers toegepast. Recursieve afdaling is niet alleen toepasbaar op 
LL(1)-grammatica's—het is een belangrijke techniek die leidt tot elegante en 
efficiënte ontleders voor tal van (deterministische) grammatica’s. In de vol- 
gende paragraaf gaan we hier nader op in. 

Eerst ontwikkelen we nu een stelling die leidt tot een algoritme waarmee je 
kunt testen of een willekeurige contextvrije grammatica G al dan niet (streng) 
LL(1) is. We doen dit door uit G een grammatica G” te construeren met 
L(G") = {z$|x € L(G)}. Hierbij geeft het $-teken het einde van de input aan. 
Als G = (N,T, P, S) een willekeurige CFG is dan definiëren we de vermeerderde 
grammatica G’ = (N’,T’, P’, S") met | 


N’ = N U{S"} is zodanig dat ’ EN, 

T’ =T U {$} is zodanig dat $ ¢ T 
en 

P’=PU{S' > S$}. 


Duidelijk is dat L(G’) = {x$|z € L(G)}. 
We definiëren nu de volgende functies op N’ UT". 


LEEG(X) = { waar als X > e, 


onwaar in andere gevallen. 
EERSTE(X) = {ala € T' en X 3 az voor een z € (T’)*} 
VOLGENDE(X) = {ala € T’ en S' Š xXay voor een x € T* en y € (T’)* } 


Voor iedere X € N’ UT" definiéren we dus twee deelverzamelingen van T”: 
_EERSTE(X) en VOLGENDE(X). 
De functie LEEG wordt uitgebreid tot een functie op (N’ UT’)* door 


LEEG(e) = waar en 
LEEG(Xa) = LEEG(X) en LEEG(a), X € N'UT',a € (N'UT’)*. 
Als dus y € (N'UT”)* dan is LEEG(y) waar desd als y > e desd als y > E. 


Tenslotte definiëren we de functie KIJKVOORUIT op de produktieregels van 
G als 


KIJKVOORUIT(A — Xi X2... Xn) 
= U {EERSTE(X;)|1 < 2 < nen LEEG(X, X2 bz >, Care) 
U als LEEG(X; X2...Xn) dan VOLGENDE(A) anders Ø. 


Nu kunnen we de volgende stelling formuleren. 
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Stelling 7.3 


De contextvrije grammatica G = (N,T, P, S) is (streng) LL(1) dan en slechts 
dan als voor ieder paar verschillende produktieregels A — a en B — Pin 
de grammatica met hetzelfde linkerlid geldt dat KIJKVOORUIT(A — a) N 
KIJKVOORUIT(A — 6) = ®. 


We geven nu een voorbeeld hoe je met behulp van deze stelling kunt 
vaststellen of een CFG LL(1) is of niet. Zij gegeven de grammatica G2 = 
(N,T,P,S) met N = {S, A, B},T = {a,b,c,d}; P bestaat uit 

S— BA|AAd 
A— ale 
B—bA|cB 


Voor de bijbehorende vermeerderde grammatica geldt N’ = N U {S’} = 
{S,A,B,S'}, T=TU{$} = {a,b, c,d, $) en p' is 

SS! = S$ 

S — BAJAAd 

A = ale 

B —bAlcB 


LEEG(A) = waar, maar LEEG(X) = onwaar voor alle andere X € N'UT'. 
Duidelijk is dat EERSTE(a;) = {a;} voor alle a; € T’ en VOLGENDE(S”) = 
VOLGENDE($) = ®, want dit geldt altijd in een vermeerderde grammatica. 
Ook verschijnt S’ in zo’n grammatica niet in het rechterlid van de produktiere- 
gels en dus komt EERSTE(S”) niet voor in de berekening van de verzameling 
KIJKVOORUIT. We beperken daarom onze aandacht tot de berekening van 
EERSTE(A;), A; € N en VOLGENDE(X),X € NUT. 

De waarden EERSTE(A;), A; € N kunnen worden uitgedrukt als de oplos- 
sing van een stelsel vergelijkingen geconstrueeerd volgens de volgende regel. 


EERSTE(A;) = U {EERSTE(X;;)| er is een produktieregel 
A=>XiXi9... Xin en ofwel j = 1 ofwel 
LEEG(Xi1 Xi2 ... Xij-1)}- 
Als we deze regel op ons voorbeeld toepassen kunnen we afleiden dat 


EERSTE(S) = EERSTE(B) U EERSTE(A) U EERSTE(A) U {d} 
= EERSTE(B) U EERSTE(A) U {d} 


EERSTE(A) = EERSTE(a) = {a} 


EERSTE(B) = EERSTE(b) U EERSTE(c) = {b,c}. 
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Elementen in VERZAMELING VERZAMELING 


NU EERSTE VOLGENDE 
$ ($) D 

a {a} la, d, $) 

b {b} {a, $} 

c {c} {b, c} 

d {d} {3} 

s {a,b, c,d}? D 

S {a, b, c, d} {3} 

A {a} {a,d, $) 

B {b,c} {a, $} 


! Deze verzameling is volledigheidshalve opgenomen. 
EERSTE(S”) = EERSTE(S) U als LEEG(S) dan ($) anders D. 


Tabel 7.1 


In het algemeen kan een dergelijk stelsel vergelijkingen worden opgelost met 
behulp van de iteratieve methode die we aan het eind van hoofdstuk 5 beschre- 
ven. In dit geval ligt de oplossing voor de hand. De verzamelingen EERSTE 
zijn in tabel 7.1 opgesomd. | 


De verzamelingen VOLGENDE kunnen op overeenkomstige wijze worden 
uitgedrukt als de oplossing van een vergelijkingenstelsel. Als X € N UT, dan 
geldt 


VOLGENDE(X) = U {VOLGENDE(A) | er is een produktieregel van de 
vorm A — aX en LEEG(9)}U 
U {EERSTE(X;;) | er is een produktieregel 
7 A; > aX X51 Xiz... Xin enj=1 
of LEEG(Xi1 Xi2... Xij-1)}. 


Hieruit kunnen we met betrekking tot ons voorbeeld afleiden dat 


VOLGENDE(a) = VOLGENDE(A) 
VOLGENDE(b) = VOLGENDE(B) U EERSTE(A) 
= VOLGENDE(B) U {a} 
VOLGENDE(c) = EERSTE(B) = {b,c} 
VOLGENDE(d) = VOLGENDE(S) 
VOLGENDE(S) = EERSTE($) = ($) 
VOLGENDE(A) = VOLGENDE(S) U VOLGENDE(B) 
U EERSTE(A) U EERSTE(d) 
= VOLGENDE(S) U VOLGENDE(B) U (a, d) 
VOLGENDE(B) = VOLGENDE(S) U VOLGENDE(B) U EERSTE(A) 
= VOLGENDE(S) U VOLGENDE(B) U {a} 
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produktieregels Verzameling KIJKVOORUIT 


S— BA {b,c} 
S — AAd {a,d} 
A —=a {a} 
Arme fa, d, $) 
B —bA {b} 
B — cB {c} 
Tabel 7.2 


Ook dit stelsel vergelijkingen kan worden opgelost met de in hoofdstuk 5 be- 
schreven techniek en de oplossingen zijn weer in tabel 7.1 afgedrukt. 

Nu we de verzamelingen EERSTE en VOLGENDE hebben berekend voor 
alle elementen in N UT, kunnen we vervolgens de verzamelingen KIJKVOOR- 
UIT bepalen voor iedere produktieregel in de grammatica. In tabel 7.2 zijn deze 
verzamelingen afgedrukt. Omdat KIJKVOORUIT(A — a) N KIJKVOORUIT 
(A — £) # Ọ is de grammatica niet LL(1). 

Met behulp van bovenstaand algoritme kan men dus testen of een wille- 
keurige contextvrije grammatica al dan niet LL(1) is. Jammer genoeg is het 
niet mogelijk een algoritme te formuleren dat bepaalt of er voor een gegeven 
willekeurige CFG al dan niet een equivalente LL(1) grammatica bestaat—dit 
is een voorbeeld van een onoplosbaar probleem. Dus als het algoritme SID 
niet in staat blijkt een willekeurige CFG in een equivalente LL(1)-vorm te 
transformeren dan wil dit nog niet zeggen dat zo’n grammatica niet bestaat. 


7.2 Recursieve afdaling 


Als G een LL(k)-grammatica is dan kun je voor L(G) een ontleder (parser) 
schrijven die werkt volgens de methode van de recursieve afdaling. De methode 
gebruikt weliswaar niet expliciet een stack, maar wel impliciet omdat gebruik 
wordt gemaakt van recursieve procedures en daarvoor heb je stacks nodig. Op 
het eerste gezicht lijkt de hier beschreven methode dus wel te verschillen van 
die die in hoofdstuk 6 werd beschreven, maar in feite is het een soortgelijke 
methode. 

Recursieve afdaling in zijn eenvoudigste vorm biedt ons de mogelijkheid 
een taalherkenner te schrijven voor de taal die door een LL(1)-grammatica 
G = (N,T,P,S) wordt gegenereerd. In zo’n herkenner zit per symbool van 
NUT een procedure die elke string die uit dat symbool valt af te leiden kan 
herkennen. Als X € NUT dan noemen we die procedure pX. Als a € T' dan 
leest pa eenvoudig het volgende nog niet vergeleken invoersymbool en gaat na | 
of dit een a is. Als A € N en de produktieregels in P met A in het linkerlid 
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genden En draaid 
produktieregels Verzameling KIJKVOORUIT 
AA EEE DE rn REE A 


S — aAB {a} 
S — bS {b} 
A — aAb {a} 
A — bBc {b} 
B — AB {a,b} 
B —c {c} 
Tabel 7.3 


zijn A — a,,A — az... A — an, dan kunnen we beslissen wat de regel is die 
in de volgende stap van de afleiding moet worden toegepast door het volgende 
te vergelijken symbool te lezen en dit te vergelijken met de KIJKVOORUIT 
verzamelingen bij de produktieregels. In de procedure pA hangt het dus af van 
het volgende te vergelijken symbool welke regel A — a; we als volgende regel 
gebruiken. Als a; = Xij Xj2...Xim,X € NUT,1 < j < m dan roepen we aan 
PXi1; PÄi2; … ; pXim. 
Als voorbeeld geven we de volgende grammatica G3 die zonder twijfel LL(1) 

is. 

S—aAB|bS 

A—aA|bB 

B — ABlc 


In tabel 7.3 zijn de bijbehorende KIJKVOORUIT verzamelingen opgesomd. 

We veronderstellen dat volgendsymbool een functie is die het mogelijk 
maakt te ‘spieken’ wat het volgende nog niet vergeleken symbool is zonder 
dat dit hierdoor al uit de invoerrij wordt verwijderd. Als er geen volgend sym- 
bool meer bestaat dan roept volgendsymbool een foutprocedure ‘mis’ aan. Een 
eenvoudige herkenner voor L(G3) die werkt met recursieve afdaling ziet er nu 
in een Pascal-achtige taal als volgt uit. 


begin pS;if geen input meer then halt else mis end. 


Hierbij is de procedure pS als volgt gedefinieerd. 


procedure pS = case volgendsymbool of 
‘a’: pa; pA; pB; 
‘b: pb; pS; 
‘c’: mis 
end; 
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procedure pA= case volgendsymbool of 
‘a’: pa; pA; pb; 
‘b: pb; pB; pc; 
‘c’: mis 
end; 
procedure pB= case volgendsymbool of 
‘a’ ‘b’: pA; pB; 
ent 
end; 
procedure pa = begin 
read(symbool); if symbool # ‘a’ then mis 
end; 
procedure pb = begin 
read(symbool); if symbool # ‘b’ then mis 
end; 
procedure pc = begin 
read(symbool); if symbool # ‘c’ then mis 
end; 


De procedure ‘mis’ stopt het proces en meldt dit. 

De volgende stap is het invoegen van ‘semantische handelingen’ in de pro- 
cedures van de herkenner, dat wil zeggen het invoegen van bewerkingen die er 
voor zorgen dat een of andere toegelaten weergave van een geaccepteerde input 
als resultaat wordt opgeleverd. Als deze weergave bestaat uit een afleidings- 
boom dan hebben we meteen een algoritme waarmee het afleidingsprobleem 
kan worden opgelost. In de praktijk gebruiken compilerbouwers een geschiktere 
voorstellingswijze, bijvoorbeeld de semantische bomen die we in hoofdstuk 2 
beschreven. We illustreren een en ander met een grammatica die rekenkundige 
uitdrukkingen genereert over de variabelen a,b en c. Elke uitdrukking wordt 
beeindigd door het ‘einde-invoerteken’ $. 


S— ES 

E=sT|E+ T|E-T 
T> FIT x PITIE 
F => alblc|(£) 


Deze grammatica is niet LL(1)—zij is zelfs niet LL(k) voor welke k dan 
ook. Immers voor iedere k kunnen E de expressies (((...(a)...))) + a en 
(((...(a)...))) — a met k + 1 openingshaakjes worden gegenereerd. k stap- 
pen vooruitkijken is niet voldoende om vast te stellen welke regel moet worden 
gebruikt E — E +T of juist E > E-—T. 

Maar we moeten nog niet wanhopen! Er zijn nog verschillende strategieen 
mogelijk om het probleem toch op te lossen. Een voor de hand liggende be- 
nadering is te zoeken naar een equivalente grammatica die wel LL(1) is. In 
ieder geval moeten we dan de linker recursie uit de grammatica verwijderen 
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(a) 


Figuur 7.3 


(zie oefening 7.2). Met behulp van stelling 5.6 construeren we een equivalente 
grammatica 


S> E$ 

ETA 
A—e|+TA| -TA 
T=PFB 

Bel xFB|/FB 
F — alb|c|(£) 


Deze grammatica is wel LL(1) en dus kunnen we er gemakkelijk een her- 
kenner met recursieve afdaling voor ontwerpen. Toch hebben we nog pech: het 
invoegen van de semantische handelingen is wel mogelijk, maar het is niet erg 
eenvoudig. Onze oorspronkelijke grammatica was met opzet zo geformuleerd 
dat de semantische boom gemakkelijk uit de afleidingsboom kon worden ge- 
construeerd. Door de grammatica te herschrijven is deze eigenschap ten dele 
verloren gegaan. De string a — b — c$, bijvoorbeeld heeft als afleidingsboom 
figuur 7.3a, maar de juiste semantische boom is die in figuur 7.3b en niet die 
in 7.3c. | 
~ Een andere benadering is het weergeven van de grammatica in syntaxisdia- 
grammen zoals in figuur 7.4. Hiermee vermijd je het gebruik van de nontermi- 
nale symbolen A en B en het blijkt dat je nu een herkenner met recursieve af- 
daling kunt schrijven waarin de correcte semantische handelingen gemakkelijk 
kunnen worden ingevoegd. Voor ieder van de nonterminalen in de syntaxisdia- 
grammen schrijven we een procedure. We krijgen dus procedures pE, pT en pF. 
De procedures p+, p—, enzovoort voor het herkennen van terminale symbolen 
bouwen we, zoals ook in de praktijk gebruikelijk is, in in de procedures voor 
de nonterminalen, voorzover en waar nodig. 


7 - NEERWAARTSE ONTLEDING 


Figuur 7.4 


De herkenner krijgt dan de volgende vorm. 
begin pb; if volgendsymbool = ‘S’ then halt else mis end; 
Met als procedures: 


procedure pE = begin 


pr; 
while volgendsymbool = ‘+’ or volgendsymbool = ‘—’ do 
begin | 
read(symbool); pT 
end 
end; 
procedure pT = begin 
pF; 
while volgendsymbool = ‘x’ or volgendsymbool = ‘/’ do 
begin 
read(symbool); pF 
end 


end; 
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procedure pF = begin 
case volgendsymbool of 
‘a’, bP,‘ : read(symbool); 
‘(? : read(symbool); pE; read(symbool); 
if symbool # ’)’ then mis; 
y, 6 p - mis 
end; 


Nu moeten we de semantische handelingen in de procedures inbouwen. We 
construeren een functie fX uit iedere procedure pX, en deze functie levert 
een semantische boom op die de rekenkundige expressie voorstelt die door pX 
wordt herkend. We gaan uit van een functie ‘maakboom’ met drie parameters: 
een symbool s en twee bomen 7} en Ts. De functie construeert hieruit een 
boom met wortel s en met als linker subboom T; en als rechter subboom To. 
De lege boom noemen we nil. 

In onderstaande pseudocode zijn de semantische acties ingevoegd. 


begin var t: boom; t := f E; if volgendsymbool = “$” then t else mis end; 


De functies worden: 


function fE: boom = begin 
var t: boom; 


tise f TS 
while volgendsymbool = ‘+’ or volgendsymbool = ‘—’ do 
begin 
read(symbool); t := maakboom(symbool,t, fT’) 
end; | 
Ns 
end; 


function fT: boom = begin 
var t: boom; 


ese TN: 
while volgendsymbool = ‘x’ or volgendsymbool = ‘ /’ do 
begin 
read(symbool); t := maakboom(symbool,t, f F) 
end; 
Jr #1 
end; 


function fF: boom = begin 
case volgendsymbool of 
‘a’, ‘D, ‘c’ : read(symbool); 
fF := maakboom(symbool,nil,nil); 
(: read(symbool); fF := f E; read(symbool); 
if symbool Æ ‘P then mis; 
a” g’: mis 
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Bij compilerbouw blijkt de techniek van de recursieve afdaling heel effectief 
te kunnen toegepast. We toonden aan dat een herkenner voor een LL(1)- 
grammatica eenvoudig kan worden afgeleid uit de KIJKVOORUIT verzame- 
lingen. Vervolgens kunnen de bijbehorende semantische handelingen worden 
ingevoegd om er een ontleder van te maken. In de praktijk kan de syntaxis van 
de meeste programmeertalen echter niet volledig met behulp van een LL(1)- 
grammatica worden gespecificeerd. De compilerbouwer kan wel voor een groot 
deel van de taal gebruik maken van de hierboven beschreven methode, maar 
er zullen gedeelten overblijven waarop de methode niet toepasbaar blijkt. Dit 
komt ofwel omdat die stukken niet in LL(1)-vorm kunnen worden geformu- 
leerd, ofwel omdat dan het invoegen van semantische acties erg moeilijk wordt. 
Voor dit soort syntaxisregels moet de compilerschrijver dus van andere metho- 
dieken gebruik maken. Als men bijvoorbeeld k stappen vooruit kan kijken, 
dan kan de methode worden gegeneraliseerd tot een LL(k)-grammatica. Zie 
Recursive Descent Compiling door A.J.T. Davie en R. Morrison, (uitg. Ellis 
Horwood, 1981) voor een uitgebreide praktische toepassing van de methode op 
een Algol-achtige taal, (S-Algol). 

In Syntax of Programming Languages: Theory and Practice door R.C. 
Backhouse, (Prentice-Hall International, 1979) wordt de theoretische behan- 
deling van LL(k)-grammatica's verder uitgewerkt. 


1.3 Oefeningen 


1. Welke van de volgende grammatica’s zijn LL(1)? Ontwerp voor die gram- 
matica’s bijbehorende recursieve afdaling herkenners. 
(a) S — A|B 
A — aAla 
B — bB|b 
(b) S— AB 
A — Bale 
B — CbIC 
C — cle 
(c) S + aAaB|bAbB 
A — Slcb 
B — cBla 


2. Als we weten dat er volgens afspraak geen irrelevante produktieregels in 
CFG’s voorkomen, bewijs dan dat een LL(1)-grammatica geen linksre- 
cursieve produkties kan hebben. Geldt dit ook voor LL(k)-grammatica’s? 

3. Generaliseer stelling 7.3 en de daaraan voorafgaande definities tot een 
nodige en voldoende voorwaarde in termen van k-staps KIJKVOOR- 
UIT-verzamelingen voor streng LL(k) zijn van een grammatica. 

4. Gebruik het resultaat van oefening 7.3 om te bewijzen dat de volgende 
grammatica streng LL(2) is en ontwerp vervolgens een recursieve afdaling 
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herkenner. 


S — aAS|AbScle 
A — cb Ala 


5. (a) Bewijs dat de volgende grammatica LL(2) is maar niet streng LL(2). 
S — aAaa|bAba | 
A => ble | 
(b) Bewijs dat de volgende grammatica LL(3) is maar niet streng LL(k) 
voor k > 1. | 
S —aBAlbBbA 
A —abAlc 
B —alab 
6. Als L een reguliere taal is en $ ¢ L dan kan L$ = {x$|x € L} worden 
gegenereerd door een (strenge) LL(1)-grammatica. Bewijs dit. (Hint: ga 
uit van de deterministische eindige automaat die de taal L accepteert.) 
7. Als een grammatica G = (N,T, P, S) meerduidig (ambigu) is dan bestaan 
elementen w‚r € T*,A € N,y € (NUT)* zodanig dat S 3 wAy 
een linkerafleiding is en verder bestaan er twee verschillende afleidingen 
Asasrcen A> Š er met a,8 € (NUT) ena # B. Bewijs 
dit en gebruik dit resultaat om te bewijzen dat iedere LL(k)-grammatica 
eenduidig is. 
8. Bewijs dat de grammatica met de volgende produktieregels 


5-08 
C—bAlaB 
A—alaC|bAA 
B — b|bC|a BB 


niet LL(k) is voor enige k. Kunt u een equivalente grammatica construe- 
ren die voor zekere k wel LL(k) is? 


Hoofdstuk 8 


Opwaartse ontleding 


Build from the bottom up not from the top down. 
Begin bij het fundament; niet bij het dak. 

— FRANKLIN D. ROOSEVELT 

Radiotoespraak, 7 april 1932 


Als een contextvrije grammatica G eenduidig is dan moet een opwaartse ont- 
leding van een string x € L(G) dezelfde afleidingsboom tot resultaat hebben 
als een neerwaartse, (voorzover deze technieken kunnen worden toegepast). De 
methoden verschillen alleen wat betreft de wijze waarop de bomen worden ge- 
construeerd. De neerwaartse (top-down) ontleedmethoden die we in het vorige 
hoofdstuk behandelden trachten de ontleedboom vanaf de top op te bouwen; 
de opwaartse (bottom-up) methoden beginnen juist met de blaadjes en werken 
van daaruit naar de top (de wortel) van de boom. De invoerstring wordt van 
links naar rechts gelezen om substrings te zoeken die overeenkomen met sym- 
bolen in het rechterlid van een produktieregel. Zodra zo’n substring is bepaald, 
kan deze vervangen worden door of gereduceerd worden tot het nonterminale 
symbool in het linkerlid van deze produktieregel en zo wordt een zinsvorm van 
de grammatica verkregen. In deze zinsvorm zoeken we weer een reduceerbare 
substring. Het uiteindelijke doel is het vinden van een rij reducties die het mo- 
gelijk maakt de hele afleidingsboom vanuit de blaadjes tot aan de wortel op te 
bouwen. Iedere reductie komt overeen met het bepalen van een ouder van een 
knooppunt in de boom. 
Beschouw de grammatica G met produktieregels 


S$S—(C$ 

C— aBC]aB|bAC|bA 
A —bAAla 

B —aBB|b 


Op grond van oefening 2.5 weten we al dat deze grammatica eenduidig is en 
dus heeft iedere x € L(G,) een unieke afleidingsboom. De afleidingsboom voor 
x = bbaaf bijvoorbeeld is in figuur 8.1e getekend. Bij iedere afleidingsboom 
hoort een unieke rechterafleiding, dit is een afleiding waarin het meest rechtse 
nonterminale symbool het eerst verder wordt uitgewerkt. Bij de boom in figuur 


8.1 hoort de rechterafleiding S > C$ > bA$ > bbAAS > bbAaf => bbaaf. 
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A 
ORO 
0000. OOOO®D OOOO® 


(a) (b) (c) 


ORO, 
060000 


(d) 


Figuur 8.1 


De opwaartse ontleding die we hier zullen behandelen construeert zo’n rechter- 
afleiding, maar van achteren naar voren. De constructie van de afleidingsboom 
voor bbaa$ vindt dan plaats zoals in figuur 8.1 aangegeven. 

De substring die bij elke stap verder wordt gereduceerd heet het handvat 
(Engels: handle) van de rechter zinsvorm. In tabelvorm kunnen we het ont- | 
leedproces zo weergeven. | 


Rechter 
Zinsvorm Handvat Vervangen door 


bbaaf (eerste) a A 
A 


bbAa$ a 

bbAAS bAA A 
bAg bA C 
C$ C$ 5 


Het kernprobleem van de opwaartse ontleedmethode is het telkens vinden van 
een handvat en het op geschikte wijze ‘reduceren daarvan bij iedere stap. 


8.1 Eenvoudige precedentiegrammatica's 


Het bovengenoemde probleem van het bepalen van handvatten en het reduce- 
ren daarvan behandelen we eerst voor een kleinere klasse van grammatica’s, 
de zogenaamde eenvoudige precedentiegrammatica’s. 
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We doorlopen de meest rechtse zinsvorm van links naar rechts en kijken 
naar paren naburige symbolen om de ‘staart’ van het handvat te vinden, dat 
wil zeggen het symbool uiterst rechts. Zodra we die hebben gevonden gaan we 
naar links om de ‘kop’ van het handvat te vinden, dit is het symbool uiterst 
links. 

Zij G = (N,T, P, S) een contextvrije grammatica en zij aXY een rechter 
zinsvorm, met a, 8 € (N UT)* en X,Y € NUT. Tijdens de reductie van deze 
zinsvorm naar S kan op een zeker moment één van de volgende drie situaties 
optreden: 


(a) X is deel van het handvat, maar Y is dat niet. X is dus de staart van 
het handvat. We zeggen dan dat X voorgaat voor Y en schrijven X >Y. 

(b) X en Y zitten beiden in het handvat. X en Y hebben dan dezelfde waarde 
en we schrijven X = Y. 

(c) Y zit in het handvat maar X niet. Dan is Y de kop van het handvat en 
dan gaat Y voor voor X; notatie X < Y. 


De relaties >, = en < heten eenvoudige precedentierelaties. Uit de definities 
volgt dat 


(a) X>Y desd als Y een terminaal symbool is (bedenk dat aXYß een 
zinsvorm is in een rechterafleiding) en als er een produktieregel A — 
11BZy2 bestaat met A,B € N,Z € NUT, yı,y € (N UT)* zo dat 
B38,X en Z3 Yô, met 61,62 € (NUT). 

(b) X = Y desd als er een produktie A — y, XY y2 bestaat met A € N en 
71,72 €(NUT)*. | 

(c) X<Y desd als er een produktie A > yıX Byz bestaat met BEN, 


11, Y2 € (N UT)* zodanig dat B 3 Yó, E (NUT). 


Een contextvrije grammatica G = (N,T, P, S) heet een eenvoudige preceden- 
tiegrammatica onder de volgende voorwaarden: 


(i) geen twee regels van de grammatica hebben identieke rechterleden 
(ii) er bestaat hoogstens één eenvoudige precedentierelatie tussen een paar 
symbolen in (N UT) x (NUT). 


G1 voldoet weliswaar aan de eerste voorwaarde, maar niet aan de tweede omdat 
zowel a >a (wegens A — bAA, A > aen AS a) alsook a <a (wegens C + aB 


en B $ aBB). 
Beschouw nu de eenvoudige precedentiegrammatica G met regels 


S —= (Rla 
R= Sa) 


Ga na dat tabel 8.1 de bijbehorende eenvoudige precedentierelaties bevat. 


Als een grammatica G = (N,T, P, S) een eenvoudige precedentiegramma- 
tica is dan kan het handvat van iedere rechter zinsvorm gemakkelijk worden 


8 - OPWAARTSE ONTLEDING 


AR yu 
VAVV IIS 
Il 


Tabel 8.1 


gevonden. We doorlopen eenvoudig de zinsvorm en zoeken naar het meest lin- 
ker paar symbolen X; en Xj41 met X; > Xj41 : X; is dan de staart van het 
handvat. Vervolgens doorlopen we de zinsvorm van rechts naar links, begin- 
nend bij X; totat we een paar X;_1,X; vinden met Xi_1 <X;: Xi is dan de 
kop van het handvat. Als we het handvat PB = X;...X; eenmaal hebben ge- 
vonden dan moet er een unieke produktieregel van de vorm A — £ bij bestaan 
en dus kunnen we reduceren tot A. Alleen als de staart van het handvat juist 
het laatste symbool is of als de kop het eerste symbool is dan ontstaat er een 
probleem. Om dit op te lossen introduceren we een eindesymbool $ ¢ NUT 
dan we aan beide einden van onze zinsvormen plaatsen. We stellen $ >X en 
X >$ voor alle X € NUT en door het herhaald reduceren van handvatten 
brengen we de inputstring $x$, x € L(G) terug tot S$. | 

L(G2) bevat strings van de vorm a, (aa), ((aa)a), (((aa)a)a) enzovoort. 
In tabel 8.2 laten we zien hoe $(((aa)a)a)$ wordt ontleed met behulp van 
de precedentierelaties. De bijbehorende rechterafleiding is S > (R => (Sa) > 
((Ra) > ((Sa)a) > (((Ra)a) > (((Sa)a)A) > (((aa)a)a). 

Een handige methode om de reductie van handvatten uit te voeren maakt 
gebruik van een stack en een inputbuffer. De belangrijkste bewerkingen die 
worden gebruikt zijn de push, (het plaatsen van een element op de stack) en 
de reductie, dat wil zeggen het vervangen van het handvat als deze zich als 
top-element op de stack bevindt. De ontleder accepteert input die eindigt met 
$S op de stack en met $ in het inputbuffer. Als geen volgende stap mogelijk 
blijkt dan wordt een foutprocedure aangeroepen. Dit soort ontleders worden 
wel schuif-reduceerontleders (Engels: shift-reduce parser) genoemd. In tabel 
8.3 zijn de inhouden van stack en inputbuffer na iedere stap toegepast op ons 
voorbeeld, weergegeven. 

Bij de uitwerking van een schuif-reduceerontleder wordt steeds een sym- 
bool op de stack geplaatst als het laatste op de stack geplaatste symbool een 
precedentie heeft lager dan of gelijk aan het volgende in het inputbuffer. Als 
dit niet zo is dan worden symbolen van de stack gehaald totdat het handvat 
gevonden is en een reductie kan worden uitgevoerd. Wordt er geen handvat 
gevonden dan wordt de foutprocedure aangeroepen. 

Om een ontleder volgens de eenvoudige precedentiemethode te bouwen moe- 
ten eerst de precedentierelaties worden vastgesteld. Gelukkig bestaat hiervoor 
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EP SANNE RN NN NO ER 
Zinsvorm Handvat 


FC ( ( a ajaja) $ a 


RR Ge 


PCC (Sa) E Sa) 


<<< <= => 

$( ( ( RB ase (R 
<< <=> 

id 9.0.) a) $ Sa) 
<<< zz > 

$( ( Raf (R 
<< => 

AE Sa) 
€: <<. 3.32 De 

fore (R 
< = > 

$S $ 


O ODO O nenn 


Tabel 8.2 


een eenvoudig algoritme (zie oefening 8.1). Alleen moet men zorgvuldig te werk 
gaan om opslagruimteproblemen te voorkomen. Immers als de grammatica m 
terminale en n nonterminale symbolen heeft dan zijn er (m + n)? mogelijke 
relaties. Als we die weergeven door een precedentiematrix dan zullen daarvan 
veel elementen de waarde - hebben (geen relatie). Beter is de matrix te compri- 
meren met een van de vele technieken voor het opslaan van ‘schaarse’ arrays 
(rijen met veel nullen). Een andere mogelijkheid is het gebruik van preceden- 
tiefuncties. Uit een precedentiematrix P trachten we twee geheeltallige functies 
f en g te construeren met 


f(t) < g(3) als Pi =<, 

F(t) = g(j) als Pj == 
en 

f(t) > g(5) als P;¿ = >. 


Deze functies heten, als we ze kunnen vinden, precedentiefuncties en kunnen 
worden opgeslagen in 2(m+n) geheugenposities, in plaats van in (m+n)? zoals 
de precedentiematrix zelf. Hiermee is wel informatie verloren gegaan, namelijk 
het afwezig zijn van een precedentierelatie. Deze informatie kan nuttig zijn in 
verband met het afvangen van fouten. 

Veel fundamenteler is de kritiek dat deze methode niet vaak kan worden 
toegepast omdat maar weinig grammatica’s eenvoudige precedentiegramma- 
tica’s zijn. Het gaat hier slechts om een kleine subklasse van de klasse der 
contextvrije grammatica’s. 
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Stack Inputbuffer Actie 
$ (((aa)a)a) $ schuif (plaats op de stack) 
P( ((aajaja)f$ schuif 
PC (aa)a)a)f schuif 
PU aa)a)a)f schuif 
3(((a a)a)a)$ reduceer met S — a 
PS a)a)a)f schuif 
$(((Sa )a)a)$ schuif 
$(((Sa) a)a)f reduceer met R — Sa) 
PUR a)a)$ reduceer met S — (R 
P((S a)a)f schuif 
$((Sa )a)$ schuif 
$((Sa) a)$ reduceer met R — Sa) 
P((R a)$ reduceer met S — (R 
$(S a)$ schuif 
$(Sa )$ - schuif 
$(Sa) $ reduceer met R — Sa) 
$(R reduceer met S — (R 
$S $ accepteer 

Tabel 8.3 


8.2 LR(0)-Grammatica's 


De opwaartse ontleedmethode die meestal in de praktijk wordt gebruikt is de 
LR-methode die is ontwikkeld door Donald Knuth, (Knuth, D.E. (1965) ‘On 
the translation of languages from left to right’, Information and Control, 8, 
607-639). De L in LR staat voor ‘Lees van Links naar rechts’ en de R voor 
‘construeer een omgekeerde Rechterafleiding’. De LR-methode is net als de 
eenvoudige precedentiemethode een schuif-reduceerontleder. De LR-methode 
is echter veel algemener toepasbaar en daarom te prefereren. In feite is LR 
zelfs beter dan LL, omdat LR op een grotere klasse grammatica's kan worden 
toegepast. Een nadeel van LR is dat de methode niet zo intuïtief begrijpelijk is 
als LL, maar eenmaal uitgewerkt en geprogrammeerd blijkt het desalniettemin 
een goed werkende methode. 

Bij een schuif-reduceerontleder, zoals weergegeven in tabel 8.3 heeft de stack 
op ieder tijdstip een inhoud a € (N UT)* en heeft het inputbuffer een inhoud 
z € T*. Samen vormen az een rechter zinsvorm. Bij iedere stap kunnen we of- 
wel een schuif-operatie uitvoeren, (het plaatsen van een volgend symbool uit de 
inputbuffer op de stack), ofwel we kunnen een reductie uitvoeren. Het probleem 
is steeds te bepalen welke van de twee operaties moet worden toegepast en, als 
het een reductie is, welke produktieregel dan moet worden gebruikt. Het liefst 
willen we zodanige voorwaarden aan de grammatica opleggen dan we altijd 
vanuit onze kennis van de inhoud van de stack precies kunnen bepalen welke 
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volgende stap onze schuif-reduceerontleder moet uitvoeren om uiteindelijk de 
omkering van een rechterafleiding te produceren. | 

Als we als produktieregel A — hebben en de stackinhoud is a = 1B, 
dan kunnen we een reductie uitvoeren. Dit moet de enig mogelijke stap zijn, 
dat wil zeggen het moet onmogelijk zijn om nul of meer schuifoperaties uit te 
voeren die de stackinhoud op az,zr € T* zetten om vervolgens een of andere 
reductie B — 9’ toe te passen en zo ook een rechterzinsvorm te bereiken. We 
eisen dus als er twee rechterafleidingen zijn 


S Š yAry > yBry 
en 
SS 6By => 68'y = y Bry 


met 7,6, b,’ E (NUT)',A,B,E N en z,y € T*, dan moeten deze twee 
afleidingen hetzelfde zijn, dus $ = y, A = B,ß= Bi enz=e. 

De verzameling strings die op de stack terecht kan komen voordat er een re- 
ductie kan worden uitgevoerd met een produktieregel A — ß heet de LRCON- 
TEXT-verzameling van A — 6; notatie LRCON TEXT(A — 8). Formeel, 


LRCONTEXT(A — £) = {ala = 78 € (N UT)* waarbij S 3 yAr > yfr 
een rechterafleiding is met 
TET en YE(NUT)*}. 


Aan bovenstaande voorwaarde is niet voldaan wanneer er verschillende produk- 
ties A — ßen B — Pf’ bestaan zodanig dat LRCONTEXT(A — B) Yß bevat 
en LRCONTEXT(B — 6') 66’ bevat, waarbij óf’ = ypx voor een x E T*. 

Zelfs als een grammatica aan deze voorwaarden voldoet dan nog kunnen er 
problemen ontstaan over de vraag wanneer men een string moet accepteren en 
moet stoppen. Neem bijvoorbeeld 


S — Sala 
LRCONTEXT(S — a) = {a} en LRCONTEXT(S — Sa) = {Sa}, dus de re- 


gel voldoet aan de bovengenoemde voorwaarden, maar als S het enige symbool 
op de stack is dan is het mogelijk dat de ontleding klaar is. We weten dus niet 
of we moeten stoppen of dat we een schuifoperatie moeten uitvoeren. Dit pro- 
bleem is echter gemakkelijk op te lossen met behulp van het einde-inputteken 
$ en met de vermeerderde grammatica 


S + S$ 
S — Sala. 


Nu is LRCONTEXT(S’ — S$) = {S$}, LRCONTEXT(S — Sa) = {Sa} en 
LRCONTEXT(S — a) = {a}. 

We formuleren op grond van het bovenstaande de volgende definitie: een 
contextvrije grammatica G = (N,T, P, S) is een LR(0)-grammatica als 
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(a) het startsymbool niet in het rechterlid van de produktieregels voorkomt 
(b) er twee rechterafleidingen zijn 


S 3 yAry > yBty 
en 
S Š 6By = ôß'y = yBry 


met 7, 6,8, 8’ €(NUT)*, A,B E€ N en z,y € T*, dan geldt fay, Ac 
Bpjs en's =: 


Uit deze definitie volgt ook de volgende stelling. 


Stelling 8.1 


Een contextvrije grammatica G = (N,T, P, S) is een LR(0)-grammatica dan 
en slechts dan als 


(a) het startsymbool niet voorkomt in het rechterlid van een van de produk- 
tieregels, - 

(b) als a € LRCONTEXT(A — f”) en az € LRCONTEXT(B — p’) met 
A=>PB,B=>P'EP,aE(NUT) en z € T* dan geldt z = £, A = B en 
PB =P". 


Om na te gaan of een contextvrije grammatica, die voldoet aan de eerste voor- 
waarde in deze stelling, een LR(0)-grammatica is, moeten we de LRCONTEXT 
verzamelingen berekenen. Iedere string in LRCONTEXT (A — B) is van de 
vorm yß voor een of andere y € (N UT)". Hieruit volgt de volgende stelling 
als we voor alle A € N definiëren: LINKS(A) = {7|S > yAz is een rechteraf- 
leiding, z € T*}. 


Stelling 8.2 
LRCONTEXT(A — 6) = LINKS(A) - {6}. 


Om dus de LRCONTEXT-verzamelingen te vinden van de produktieregels van 
de grammatica, moeten we eerst de LINKS-verzamelingen bepalen van de non- 
terminale symbolen. Als we aannemen dat in de grammatica G = (N,T, P, S ) 
S niet voorkomt in de rechterleden van de produktieregels dan volgt hieruit 
dat LINKS(S) = {e}. Ook geldt als B — 71 Ay2 een produktieregel van G is, 
dat LINKS(A) dan LINKS(B) - {yi} bevat. | 


We bekijken nu de grammatica G3 met als produktieregels 
S— A$ 


A — AB|B 
B — [A] |[] 
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om na te gaan hoe we de LRCONTEXT-verzamelingen kunnen bepalen. De 
grammatica genereert strings met correcte paren linker en rechter vierkante 
haakjes en met $ als eindsymbool. Voorbeelden: (]7,[0 19, 0,8, enzovoort. 

Als we de hierboven afgeleide regels over de LINKS-verzamelingen toepas- 
sen dan krijgen we de volgende vergelijkingen 


LINKS(S) = {e} 
LINKS(A) = LINKS(S) U LINKS(A) U LINKS(B) - {[} 
LINKS(B) = LINKS(A){A} U LINKS(A) 


Deze vergelijkingen kunnen we oplossen door een omkering van de techniek die 
we in hoofdstuk 5 toepasten, dus door de vergelijkingen als een grammatica 
te herschrijven. Aan elke verzameling wijzen we een nonterminaal symbool 
toe: Ê voor LINKS(S), A voor LINKS(A) en B voor LINKS(B). De hieruit 
resulterende grammatica heeft als verzameling nonterminalen (S, A, B}, als 
terminalen {A,[} en als produktieregels | 


Se 

Â — SLB 

B— AAA 
In het algemeen kunnen de LINKS-verzamelingen van een grammatica G = 
(N,7,P,$) worden afgeleid uit een grammatica G = (N,T,P,S) met N = 
{A|A € N} en TC NUT. Uit de constructie volgt dat de produktieregels in 
P zodanig zullen zijn dat de grammatica linkslineair is en dus zijn de LINKS- 


verzamelingen allen regulier (zie oefening 3.11). Een gevolg van stelling 8.2 is 
dus de volgende stelling. 


Stelling 8.3 


Voor iedere contextvrije grammatica G = (N,T, P,S) zijn de LRCONTEXT- 
verzamelingen van produkties in P allen regulier. 


Dit resultaat biedt interessante perspectieven! Reguliere verzamelingen zijn 
gemakkelijk te verwerken en mogelijk kunnen we hiervan gebruik maken bij 
het ontwerp van een ontleder. | 

De constructie van een eindige automaat M , die behoort bij een linkslineaire 
grammatica G kunnen we als volgt samenvatten. Bij iedere produktieregel 
A Bz, A,B EN,zE T* behoort een pad met label x vanuit een knoop B 
naar een knoop A en bij iedere produktieregel A — z, Â € N ‚x € T* behoort 
een pad z vanuit de begintoestand van M (met label 1) naar knoop A. Elk pad 
‚kan een of meer kanten bevatten die gelabeld zijn met elementen uit TU {e}. 
Als een pad uit meer dan een kant bestaat dan voeren we tussenknopen in 
die we met 2, 3, 4, enzovoort, labelen. Als we nu de overgangsfunctie van 
M, t noemen, dan volgt uit onze constructie dat voor alle A € N geldt dat 
LINKS(A) = {z € T*|é(1,2) = A}. 

In figuur 8.2a is de eindige automaat die hoort bij dit voorbeeld getekend. 
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Nu gelden de volgende gelijkheden: 


LINKS(S) = 1 
LINKS(A) = ((A + 1)[)* 
LINKS(B) = ((A+1)[)"(A+ 1) 


en dus volgt 


LRCONTEXT(S — Af) = A$ 

LRCONTEXT(A — AB) =((A+1)[)" AB 
LRCONTEXT(A > B) = ((A + 1)[)*B 

LRCONTEXT(B => [A]) = ((A + )D"(4+ DIA] 
LRCONTEXT(B = [])=((A+ DD*(A = DI 


Op grond van stelling 8.1 is nu in te zien dat G3 inderdaad LR(O) is. 


Als we de eindige automaat M hebben geconstrueerd dan kunnen we ver- 
volgens stelling 8.2 gebruiken voor de constructie van een tweede automaat 
die een toestand heeft bij iedere produktieregel uit de oorspronkelijke gram- 
matica en die een zodanige structuur heeft dat de verzameling strings die 
ons van een begintoestand naar een toestand brengen met als label een van 
de produktieregels, juist overeenkomt met de LRCONTEXT-verzameling voor 
die produktieregel. Bij ons voorbeeld leidt dit tot de automaat die in figuur 
8.2b is weergegeven. In figuur 8.2c is de equivalente deterministische automaat 
zonder e-produkties getekend. Deze laatste automaat wordt de karakteristieke 
automaat bij de grammatica genoemd. De knopen van een karakteristieke au- 
tomaat die een produktieregel als label hebben, heten reductietoestanden. Een 
grammatica is LR(0) dan en slechts dan als de reductietoestanden van de bij- 
behorende karakteristieke automaat elk met precies een produktieregel zijn 
gelabeld en als zij geen terminale symbolen bevatten. 

We laten nu zien hoe de karakteristieke automaat uit ons voorbeeld kan 
worden gebruikt om na te gaan dat de string [[][]] []# tot de taal behoort. We 
voeren de string symbool voor symbool in totdat we in een reductietoestand 
terechtkomen. Nu weten we welke reductie we moeten toepassen en zo krijgen 
we een nieuwe (rechter) zinsvorm. Nu kunnen we opnieuw vaststellen welke 
reductie we moeten toepassen door een prefix van deze zinsvorm in te voeren 
in de karakteristieke automaat. Als we dit herhaald toepassen dan worden de 
stappen uitgevoerd die zijn aangegeven in tabel 8.4. 


We gebruiken de automaat zo niet erg efficiënt. Het steeds opnieuw opstar- 
ten van de automaat na een reductie is in feite niet nodig. In stap 4 bijvoorbeeld 
hebben we zojuist [] tot B gereduceerd. Als we tijdens de vorige stap hadden 
onthouden dat we ons in toestand {3,B,5} bevonden, na de verwerking van 
[ A en voor de verwerking van [], dan hadden we geweten dat de input [AB zou 
leiden tot toestand t({3, B,5}, B). Voordat we dit idee verder uitwerken, ver- 
eenvoudigen we eerst onze werkwijze door de toestanden te nummeren met E, 
2, ... Hierbij is 1 de begintoestand en in een reductietabel houden we bij welke 
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Figuur 8.2 


toestanden reductietoestanden zijn. Als toestand k een reductietoestand is met 
bijvoorbeeld A — £ als bijbehorende produktieregel dan zetten we A — ß op 
de k@® regel van de reductietabel. In figuur 8.3 geven we het resultaat weer van 
het opnieuw labelen te zamen met de bijbehorende reductietabel. 


Nu is het mogelijk een efficiënt ontleedalgoritme te formuleren met behulp 
van een toestandstack. Bij iedere stap van het algoritme bevat de stack de 
toestanden die de karakteristieke automaat zou hebben doorlopen als we de 
huidige prefix van de rechterzinsvorm hadden ingevoerd. Als de huidige prefix 
bijvoorbeeld [A[] is dan bevat de stack 1, 2, 3, 2, 9, waarbij element 9 de top 
van de stack is. Er zijn nu vier stappen mogelijk: 


(a) een reductiestap: Stel de stackinhoud is gelijk aan 1 = ko, ki, ‚kn = k. 
Als het topelement k een reductietoestand is met als produktieregel 
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nn 


Prefix van de 
zinsvorm ingevoerd Overige invoer 


in de karakteris- = restant van Toegepaste Nieuwe 
Stap tieke automaat de zinsvorm reductie zinsvorm 
ED ne rr 
1 [0] ie B-U [BUF 
2 [B DUS AB [411104 
3 [Al] 107 Bl] [4B][1$ 
4 [AB IS AAB TA 
5 [A] (ig B-[Al o BU 
6 B | $ AB A[]$ 
7 Al) $ B=!I] ABS 
8 AB $ A=AB Af 
9. AS | $ S=AS S 

Tabel 8.4 


A XiX2...Xm (m < n) terwijl A # S, dan gebruiken we deze pro- 
duktieregel, halen m elementen van de stack en plaatsen t(kn-m, A) op 
de stack. | 

een schuifstap: Als het topelement k geen reductietoestand is dan schui- 
ven we de string op door bijvoorbeeld a € T te lezen uit de inputrij en 
‘door toestand t(k, a) op de stack te plaatsen. | 


(b 


we” 


(c) een acceptatiestap: Als het topelement een reductietoestand is die over- 
eenkomt met de unieke produktieregel die S in het linkerlid heeft staan, 
(bijvoorbeeld S — a), dan stopt het algoritme in de toestand ‘accep- 
teren’, onder voorwaarde dat er precies |a| + 1 toestanden op de stack 
staan. | 

(d) een verwerpstap: Als geen van de vorige drie stappen mogelijk is dan zit 


Reductietabel 


S— A$ 
A— AB 
A— B 
A — [A] 
BT 


co 0 Sm gl 


Figuur 8.3 
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Stackinhoud Stap 


schuif [ 

schuif [ 

schuif ] 

reduceer met B — [] 
reduceer met A — B 
schuif [ 

schuif ] 

reduceer met B — [] 
reduceer met A — AB 
schuif ] 

reduceer met B — [A] 
reduceer met A — B 
schuif [ 

schuif ] 

reduceer met B — [] 
reduceer met A — AB 
schuif $ 

accepteer 


nd et 
No dS Do 


N 
PENN N 
o 


DD 


~~ 
~ 


- 
hd 


DNN 
Ne) 


hd 


DT DN VD 


> 
> 


hd 
~ 


00 


~ 


a 
> 


DNN 
© 


- Se -< 
~ 


fdo pudo pudo dd fh jd 


on 


~~ 


Tabel 8.5 


er een fout in de invoer en dan geldt ofwel dat het algoritme stopt, ofwel 
dat een of andere poging de fout te corrigeren wordt uitgevoerd. 


Als we de automaat met de opnieuw genummerde toestanden gebruiken dan 
staat in tabel 8.5 de stackinhouden tijdens de ontleding van de string [[][]] []$. 

Als een grammatica LR(O) is dan kan de constructie van de bijbehorende 
karakteristieke automaat worden geautomatiseerd. Is dat eenmaal gebeurd dan 
is het vrij eenvoudig om een ontleder voor de taal te schrijven. Jammer genoeg 
komt het zelden voor dat een taal aan de LR(0)-voorwaarde voldoet, maar 
gelukkig kan de LR-ontleding op een aantal verschillende manieren worden 
gegeneraliseerd tot zeer efficiënte ontleedtechnieken. 


8.3 LR(1)-Grammatica’s 

Gegeven is de grammatica G4 met als produktieregels 
S= ES 
E>E+TIT 


T>TxFIF 
F —al(E) 
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Reductietabel 

3 TF 

4 F —a 

6 ET 

7 SHES 
11 Eco EST 
12 F-= (E) 
is’ Heel xX F 


Figuur 8.4 


In figuur 8.4 is de karakteristieke automaat getekend voor G4. Uit deze au- 
tomaat valt af te leiden dat G4 niet LR(O) is. Er geldt bijvoorbeeld T € 
LRCONTEXT(E — T), maar T x a € LRCONTEXT(F — a) en Tx F € 
LRCONTEXT(T — T x F). Als nu de huidige stackinhoud bijvoorbeeld 1, 
6 is dan weten we niet of we een schuif- of een reductiestap moeten uitvoe- 
ren. Dit dilemma kunnen we in dit geval oplossen door een symbool vooruit 
te kijken. Als het volgende invoersymbool een x is dan moeten we een schuif- 
stap uitvoeren, anders een reductiestap. G4 is een voorbeeld van een zoge- 
naamde LR(1)-grammatica—bij deze grammatica’s kunnen we de beschreven 
LR-ontleder zo aanpassen dat dilemma’s binnen de karakteristieke automaat 
worden opgelost door een ‘lookahead’ van één symbool. Algemeen geldt voor 
een LR(k)-grammatica (k > 0 en geheel) dat een oplossing mogelijk is door 
k symbolen vooruit te kijken. In de praktijk blijkt het geval k = 1 veruit 
het belangrijkste en hiertoe zullen wij ons in het navolgende beperken. Een 
generalisatie naar hogere k kan vrij eenvoudig worden uitgevoerd. 

We nemen aan dat de wilekeurige grammatica G = (N,T,P,S) al op de 
gebruikelijke manier is vermeerderd door het toevoegen van een speciaal einde- 
invoerteken $. De enige produktieregel in P die S bevat is van de vorm S — E$ 
voor een E € N. We definiëren de LR(1)CONTEXT-verzameling van een - 
produktieregel A — ß in P door | 


LR(1)CONTEXT(A — B) = {ala = ypa € (N UT)*T waarbij S > 
y Aaz > yßazx een rechterproduktie is 
voor een a ET, €T*,y €(NUT)*}. 
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Als a € LR(1)CONTEXT(A — £$) dan geldt a = a'a voor een a € LRCON- 
TEXT(A — £) en a € T. Deze a € T is de lookahead van een symbool die we 
in de ontleder willen opnemen. Door middel van een generalisatie van stelling 
8.1 komen we tot de volgende definitie. 

Als G = (N,T, P, S) en vermeerderde contextvrije grammatica is dan heet 
G een LR(1)-grammatica dan en slechts dan als 


uit a € LR(1)CONTEXT(A — ß) en az € LR(1)CONTEXT(B — 9’) 
met A>PB,B= p' € P,a e (NUT) enzeT* volgt dat z = e, 
A=Ben B= fp’. 


Om te testen of een grammatica al of niet LR(1) is moeten we dus de LR(1)- 
CONTEXT-verzamelingen berekenen van alle produktieregels. Als A € N en 
a € VOLGENDE(A), dan definiëren we 


LINKS, (A, a) = {y|$ > yAaz is een rechterafleiding, z € T*). 


Hieruit volgt dan 


LR(1)CONTEXT(A => ß) = U LINKS;(A, a) - (Ba). 
ac VOLGENDE(A) 


We moeten nu alle LINKS;-verzamelingen bepalen. Dat kan op een soortgelijke 
manier als waarop we de LINKS-verzamelingen bepaalden. Allereerst stellen we 
vast dat als B — +; Ay2 een produktieregel van G is met be VOLGEN DE(B) 
en a € (EERSTE(X)|y2b > z} dan geldt zeker a € VOLGENDE(A) en 
LINKS, (A,a) D LINKS, (B,b) - {yı}. Zo krijgen we een stelsel vergelijkingen 
voor de LINKS; -verzamelingen en net als bij de LIN KS-verzamelingen komt dit 
stelsel overeen met een links-lineaire grammatica. De LIN KS,-verzamelingen 
zijn allen regulier en de LR(1)CON TEXT-verzamelingen zijn dat dus ook. Uit 
de grammatica die de LIN KS,-verzamelingen bepaalt kunnen we een determi- 
nistische eindige automaat construeren die de LR(1)CONTEXT-verzamelingen 
definieert. Net als bij de karakteristieke automaat voor LR(0)-grammatica's 
kunnen we bij een LR(1)-grammatica deze eindige automaat gebruiken om 
een opwaartse ontleder te construeren. Helaas heeft deze automaat meestal een 
groot aantal toestanden en de constructie is vaak een heel werk. Soms is het 
mogelijk te bewijzen dat een (vermeerderde) grammatica LR(1) is door een 
sterkere eigenschap te bewijzen, namelijk de eenvoudige LR(1)-voorwaarde. 
Deze wordt voor een produktieregel A — ß als volgt gedefinieerd 


SLR(1)CONTEXT(A — £) = LRCONTEXT(A — 9). VOLGENDE(A) 


Per definitie is dus de LR(1)CONTEXT-verzameling van een produktieregel 
een deelverzameling van de SLR( 1)CONTEXT-verzameling. 

Een (vermeerderde) grammatica G = (N,T,P, S) is nu een eenvoudige 
LR(1)-grammatica (vaak afgekort tot S LR(1)-grammatica) dan en slechts dan 
als 
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uit a € SLR(1)CONTEXT(A — £) en ax € SLR(I)CONTEXT(B — 6’) 
met A— ßen B-ß'eP,ae(NUT)*enzET* volgt z =e, 
A=BenPß=P. 


Uit deze definities volgt onmiddellijk: 


Stelling 8.4 | 
Iedere SLR(1)-grammatica is LR(1). 


Het omgekeerde is echter niet waar (zie oefening 8.5). De grammatica Ga 
is SLR(1). Voor deze grammatica kunnen we gemakkelijk de VOLGENDE- 
verzamelingen bepalen met behulp van de in hoofdstuk 7 behandelde technie- 
ken. 


VOLGENDE(S) = 0 
VOLGENDE(E) = {+,), $) 
VOLGENDE(T) = {x,+,), $} 
VOLGENDE(F) = {x,+,), $} 


Als we de karakteristieke automaat in figuur 8.4 bekijken dan is duidelijk dat 
de SLR(1)CONTEXT-verzamelingen voldoen aan alle voorwaarden voor een 
SLR(1)-grammatica. Op grond hiervan is het nu mogelijk een LR-ontleder voor 
Ga te ontwerpen. We weten dan een lookahead van een symbool voldoende is 
om eventuele conflictsituaties op te lossen. In tabel 8.6 wordt dit geillustreerd 
met een ontleding van de string a +a x a + aĝ. 


Met behulp van een LR-ontleder kunnen we vaststellen in welke volgorde 
de reducties moeten worden uitgevoerd en zo wordt dus impliciet de aflei- 
dingsboom gegenereerd. Als we ook semantische acties willen inbouwen in de 
ontleder, dan is dat in het algemeen niet zo moeilijk. Stel dat we semantische 
bomen willen genereren bij de rekenkundige expressies die door G4 worden 
voortgebracht. Dat kan bijvoorbeeld door aan elk element X van de huidige 
prefix van de zinsvorm een boom Tx te verbinden. Tx is de semantische boom 
die overeen komt met dat deel van de afleidingsboom dat X als wortel heeft. 
Steeds als we een symbool a € T verschuiven, voegen we dit toe aan de hut 
dige prefix en kennen we er een boom Ta aan toe die alleen uit de knoop @ 
bestaat. Steeds als we de reductie A — X1X2... Xp toepassen, vervangen we 
het meest rechtse voorkomen van X1Xa...Xr in de huidige prefix door A. 
Verbonden met deze reductie is een semantische regel die beschrijft hoe de bo- 
men Tx,,7x,,---,2x, worden gecombineerd tot de boom T4. Een succesvolle 
ontleding leidt uiteindelijk tot de toestand ‘accepteren’, met als huidige prefix 
het symbool S en als semantische boom Ts. 


De semantische regels bij de produktieregels van G4 kunnen gemakkelijk 
worden geconstrueerd. In tabel 8.7 zijn zij weergegeven. 
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Stackinhoud Stap 


(ver)schuif a 
4 reduceer met F + a 
3 reduceer met T + F 
6 (gebruik één-symbool lookahead) 
reduceer met E — T 
schuif + 
schuif a 
4 reduceer met F + a 
‚3 reduceer met T > F 
11 (gebruik één-symbool lookahead) 
schuif x 
8, 11, 10 schuif a 
8, 11, 10, 4 reduceer met F + a 
824790513 reduceer met T >T xF 
8, 11 | (gebruik één-symbool lookahead) 
reduceer met E>E+T 
schuif + 
schuif a 
4 reduceer met F — a 
,3 reduceer met T — F 
11 (gebruik één-symbool lookahead) 
reduceer met E + E +T 
ice schuif $ 
1.2.7 accepteer. 


cd Fe TD 
Tabel 8.6 


8.4 Theoretische overwegingen 


De LR-ontleedtechniek is theoretisch superieur aan de LL-techniek omdat 
werd aangetoond dat iedere (vermeerderde) LL(k)-grammatica ook LR(k) 
is. Er bestaan echter grammatica’s die LL(1) zijn, maar niet SLR(1), (zie 
oefening 8.6). Iedere LR(k)-grammatica definieert een deterministische taal 
en omgekeerd kan iedere deterministische taal worden gedefinieerd door een 
LR(1)-grammatica. Een taal wordt dus dan en slechts dan gegenereerd door 
een LR(k)-grammatica als de taal door een LR(1)-grammatica wordt gegene- 
reerd. LR(0)-grammatica's definiëren juist die deterministische talen die vol- 
doen aan de prefix-eigenschap: als x in L voorkomt dan komt geen echte prefix 
van z in L voor. Als we een einde-inputteken $ gebruiken dan voldoet iedere 
determinsitische taal L$ aan de prefix-eigenschap. De taal kan dan dus wor- 
den gegenereerd door een LR(0)-grammatica. Voor praktische toepassingen 
heeft een compilerbouwer voldoende aan een LR(1)-grammatica of een een- 
voudige variant daarop, zoals een SLR(1)-grammatica. Zie het boek Formal 
Languages and their Relation to Automata door J.E. Hopcroft en J.D. Ullman 
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NNS 


Reductie Semantische regel 
Entei 
S—E$ Ts := Tp 
E-—-E+T Tg := construeerboom(+, Tg, Tr) 
ET Te:= Tr | 
T-TxF Tr := construeerboom(X, Tr, Tr) 
T = F Tr := Tr 
Fra Tr := Ty 
F — (E) Tr := Te 

Tabel 8.7 


(Addison-Wesley) en Syntax of Programming Languages: Theory and Practice 
door R.C. Backhouse (Prentice-Hall) voor verdere theoretische uitwerking en 
formele bewijzen van de hier behandelde stof. Een praktische behandeling van 
de LR-ontleedtechniek is te vinden in Principles of Computer Design door A.V. 
Aho en J.D. Ullman (Addison-Wesley). In dit boek wordt een variant op de 
LR-grammatica besproken die bekend staat als de LALR-grammatica. 


8.5 Oefeningen 


i; Gegeven zijn een willekeurige contextvrije grammatica G = (N,T, P, S) 
en twee relaties F en L op N UT die als volgt zijn gedefinieerd. 


X FY desd als er een produktieregel in P voorkomt van de vorm 
X—Yyye(NUT)* en 

XLY desd als er een produktieregel in P voorkomt van de vorm 
X = yY, yE (NUTY. 


Als Rt, R* en R”! respectievelijk de transitieve insluiting, de reflexieve 
insluiting en de inverse van een relatie R voorstellen, bewijs dan dat 


(<) = (=)(F*) 


(>) = (LEF) 


(De relaties =, F en L kunnen gemakkelijk worden bepaald. F+ en Lt 
kunnen vervolgens worden bepaald met behulp van het algoritme van 
Warshall, (zie JACM 9,11-112, januari 1962). F* = F+ UI, waarbij I 
de identiteitsrelatie voorstelt. Het is nu op grond hiervan mogelijk om de 
relaties < en > te bepalen.) 
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2. Bereken de precendentierelaties voor de volgende grammatica 
S— A$ 
A—aABC|CB 
B —aB|C 
C—b 
Is dit een eenvoudige precedentiegrammatica? 
3. Toon aan dat de grammatica uit oefening 8.2 LR(0) is, door haar karak- 


teristieke automaat te berekenen. 
4. Bewijs dat de grammatica 


SA 
A— AblbBa 
B — aAcla|aAb 
niet LR(0) maar wel SLR(1) is. 
9. G=(N,T, P, S) is een willekeurige contextvrije grammatica en k is een 
positief geheel getal. Veronderstel dat G vermeerderd is zodat er k einde- 


_inputtekens $ staan aan het einde van elke string in L(G). Definieer 
verder 


VOLGENDE (A) = {z|lengte(z) = k en S Š y; Ary 
voor zekere y1, y2 ET}. | 


De SLR(k)CONTEXT-verzameling van een produktieregel A — 2 in G 
wordt dan gedefinieerd als 


SLR(E)CONTEXT(A — 6) = LRCONTEXT(A— $) - VOLGENDE, (A). 


Gebruik deze definitie om formeel een SLR(k)-grammatica te definiëren 
en aan te tonen dat 


S— AS 
A— BaCD 
B=b 
C — B| Ea 
D — bal Dba 
Eb 
LR(1) is maar niet SLR(k) voor enige k > 0. 
6. Bewijs dat de grammatica 
S— A$ 
A— BaBb|CbCa 
Boe 
Ce 
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LL(1) is maar niet SER(1). 


. Generaliseer de definitie van een LR(1)-grammatica tot die van een 


LR(k)-grammatica. 


. Schrijf een Pascal-programma voor een LR-ontleder voor eenvoudige re- 


kenkundige expressies. Het programma moet toegelaten expressies in de 
variabelen (a,b, c,...,z) accepteren en als resultaat de bijbehorende se- 
mantische boom opleveren. Bij incorrecte expressies moet een foutmel- 
ding worden gegeven. j 


afleidingsboom 21 
afleidingsprobleem 68 
afsluiting 8 
aftelbaarheid 9 
aftelbare verzameling 5 
alfabet 11 
algoritme van Warshall 128 
ambigué grammatica 22 
associatieve operatie 3 
associatieve wet 4 
automaat 
— eindige 36 
— karakteristieke 120 
— met epsilon-stappen 44 


Backhouse, R.C. 108, 128 
backtracking 93 
Backus-Naur Form xii 
bijectieve functie 9 
blaadje 11 
BNF xii 
BNF-notatie 16 
boom 10 
_ — blaadje van een 11 
— semantische 23, 126 
— wortel van een 10 
bottom-up ontleding 93 
Brandt Corstius, H. vi 


Cantor, diagonalisatiemethode van 
5 

CFG 20 

CFL 20, 61 

Chomsky, normaalvorm van 63 

commutatieve operatie 3 

commutatieve wet 4 

complement 3 

complementariteit, wetten van 4 

concatenatie 12 

configuratie 79 

contextvrije grammatica 20 


Index 


contextvrije taal 20, 61 


Davie, A.J.T. 108 

DCFL 86 

de Morgan, wetten van 4 

deelgraaf 10 

deelverzameling 2 

definiërende eigenschap 2 

derivation problem 68 

deterministische stapelautomaat 86 

deterministische taal 86 

DFSA 36 

diagonalisatiemethode van Cantor 
5 

diepte in een boom 13 

digraaf 9 

disjuncte verzamelingen 4 

disjunctie van grafen 10 

distributiviteitswetten 4 

domein 6 

doorsnede 3 

DPDA 86 

dubbelzinnige grammatica 22 


edge 10 

een-eenduidige afbeelding 9 

eenheidsproduktieregel 63 

eenvoudige precedentiegrammatica 
112 

eindige automaat 36 

eindige verzameling 5 

eindigheidsprobleem 57, 68 

elementprobleem 68 

epsilon-bereikbaarheid 44 

epsilon-genererend 26 

epsilon-produktie 24 

epsilon-stap 79 

epsilon-vrije grammatica 26 

equivalente grammatica’s 20 

equivalentieklasse 7 


equivalentieprobleem 57 
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equivalentierelatie 7 
Even, S. 91 
externe knoop in een boom 11 


formele taal 12 
Foster’s Syntax Improving Device 
98 

frasestructuurgrammatica 18 
functie 8 | 

— bijectieve 9 

— injectieve 8 

— partiele 8 

— surjectieve 8 

— totale 8 


gelijkmachtigheid, wetten van 4 
genealogie 11 
gerichte graaf 9 
graaf 9 
— gerichte 9 
— kant van een 10 
— pad in een 10 
grammatica 17 
— ambigue 22 
— contextvrije 20 
— dubbelzinnige 22 
— epsilonvrije 26 
— equivalente 20 
— linkslineaire 47 
— LR(1)- 124 
— LR(0)- 117 
— ondubbelzinnige 22 
— rechtslineaire 47 
— reguliere 28, 31-32 
— SLR(1)- 125 
Greibach, normaalvorm van 68-69 


handle 112 
handvat 112 
Hopcroft, J.E. xiii, 128 


identiteitswet 4 | 

inherent dubbelzinnige contextvrije 
taal 28 

injectieve functie 8 

interne knoop in een boom 11 


INDEX 


involutiewet 4 
irrelevante produktie 62 


Jensen, K. 17 


kant 10 

karakteristieke automaat 120 
kardinaalgetal 5 

kind 11 

Kleene, stelling van 52 
Kleene-afsluiting 12, 33 
knoop 9 

Knuth, D.E. 116 


leeg symbool 11 
leegheidsprobleem 57 
lege verzameling 2 

— wet voor 4 
lexicale analyse 31 
linkerafleiding 22 
linkslineaire grammatica 47 
links-recursieve produktieregel 68 
LL-ontleding 93 
lookahead 124 
LR(0)-grammatica 117 
LR(1)-grammatica 124 
LR-methode 116 
LRCONTEXT-verzameling 117 


machinecode 23 
machtverzameling 14 
McKeown, G.P. 1 
membership problem 68 
monotonie 14 

Morrison, R. 108 
Myhill-Nerode, stelling van 54 


nakomeling 11 
neerwaartse ontleding 93 
NFSA 39 
nondeterministische 
— eindige automaat 39 
— stapelautomaat 78 
nonterminale grootheid 16 
normaalvorm van Chomsky 63 


normaalvorm van Greibach 68-69 


INDEX 


NPDA 78 


ondubbelzinnige grammatica 22 
oneindige verzameling 5 
ononderscheidbare toestanden 54 
ontleedalgoritme 93 
ontleedboom 21 
operatie 

— associatieve 3 

— binaire 3 

— commutatieve 3 

— unaire 3 
opwaartse ontleding 93, 111 
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Wie een taal gaat bestuderen, of deze nu formeel is 

of niet, heeft één groot voordeel: iedereen is expert 

in minstens één taal, zijn of haar moedertaal. 

Velen van ons kennen tegenwoordig ook een 
programmeertaal, zoals ALGOL, Pascal, BASIC of 
FORTRAN. Bij het programmeren blijkt echter dat 
computers niet zoals mensen aan een half woord genoeg 
hebben. Syntaxis en semantiek van programmeertalen 
zijn daarom een belangrijk studieobject en zeker 

als men zich wil gaan verdiepen in compilerbouw is 
kennis van de formele-taaltheorie noodzakelijk. 


In dit boek worden hoofdzakelijk requliere en 
contextvrije grammatica's behandeld, omdat deze bij 
het definiëren van programmeertalen een belangrijke 
rol spelen. 
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